识别Z玻色子喷注的卷积神经网络方法

全文HTML

--> --> -->

1.引　言

在大型强子对撞机(LHC)上, 粒子在非常高的能量下进行碰撞, 研究人员可以通过各种探测器观测到末态粒子束(喷注). 因为能量如此之高, 喷注在量能器上产生的能量沉积有可能发生重叠, 这样会形成一个胖喷注. 胖喷注有着丰富的亚结构, 可以用来研究产生它的相应的过程. 以Z玻色子衰变到双喷注为例, 胖喷注含有潜在的多个亚喷注结构, 相比之下, 普通的量子色动力学(quantum chromodynamics, QCD)过程产生的胖喷注则没有这样的结构. 从庞大的QCD喷注背景下识别出特定过程产生的喷注对之后进行喷注研究有着重要的意义, 这就是喷注识别. 大量的工作通过理解胖喷注的亚结构来提出识别的方法, 这些工作的综述可以查看文献[1-3]. 在物理学中, 传统的方法是设计一些观测量, 然后对这些观测量的分布人为施加截断, 全部的截断构成了一个分辨器; 也可以单独或者组合利用这些观测量, 通过增强决策树(boosted decision trees, BDTs)这种机器学习算法来进行分辨. 尽管这些观测量是人为精心构造出来的, 但是它们并不一定能充分利用到喷注所含的潜在信息.
近年来, 大量的工作尝试将机器学习方法应用于物理中的不同任务^[4-6]. 其中对于喷注识别的任务, 不同的机器学习模型有着不同的输入, 于是人们构造了喷注的不同的表示方法, 例如: 图片^[7-18]、序列^[19-22]、图结构^[23]、集合^[24]等. 通过利用模型自动提取特征的功能, 更高维度、更复杂的信息被产生用来识别喷注的来源. 本文的识别任务是从QCD背景下识别出由高能Z玻色子衰变而来的喷注. 区别于人为构造的观测量, 我们直接利用了低维的四动量数据, 来探索这一原始数据所包含的有用的潜在信息. 喷注被看作是一张图片作为输入, 然后利用卷积神经网络(convolutional neural networks, CNNs), 通过层层相连的卷积层, 来提取出不同维度的特征图, 依次作为输入传入下一层, 最后通过全连接层输出信号与背景的概率, 通过相对概率的大小, 喷注图片被识别成信号或者背景. 在不同深度的CNN进行训练比较之后, 找出了对于这一过程, 最精简与最高效的CNN结构. 为了对比它们与传统方法的差异, 还使用了BDT来进行识别. 结果显示CNN模型的效果远超BDT的效果, 也说明了在未来的标注识别研究中, 这种结构及其变体蕴含的巨大潜力.

3.研究方法

3.1.卷积神经网络(CNN)

-->

3.1.卷积神经网络(CNN)

本文卷积块(ConvBlock)由一个卷积层, 一个批归一化层, 一个最大池化层组成. 为了保持输入的尺寸大小不变, 卷积层的填充数设置为1, 卷积步长设置为3. 在这样的设计下, CNN可以有更深的结构. 为了防止模型过于复杂带来的过拟合, 在卷积块的最后添加了丢弃层, 有50%的概率丢弃与之相连的特征图. 总共探索了四种CNN结构: 所包含卷积块的个数分别为2, 3, 4, 5, 分别命名为CNN 1, CNN 2, CNN 3, CNN 4. 展示了包含4个卷积块的CNN 3结构, 如图2所示. 所有的结构都是卷积块层层堆叠组成的, 最后加上一个全连接的分辨层得到输出. 随着层数变深, 中间得到的特征图通道数逐渐增多, 尺寸变小, 直到最后的单像素图. 除了这一种结构, 文献[9, 17]还探索了不同的结构. 在训练过程中采用了Adam优化算法, 学习率设置为0.001, 同样为了防止过拟合采用了早停法, 在20个周期内如果验证集上的损失没有下降的话, 训练将会终止. 此外使用了交叉熵损失函数. 模型由Pytorch搭建而成, 训练使用了Pytorch的高级封装Skorch.

图 2 CNN 3结构示意图, 产生这张图片的程序来自https://github.com/gwding/draw_convnet
Figure2. Architecture of the CNN 3. This figure was generated by adapting the code from https://github.com/gwding/draw_convnet.

2

3.2.增强决策树(BDTs)

-->

3.2.增强决策树(BDTs)

为了衡量CNN的分辨效果, 将增强决策树作为基线, 聚集产生的胖喷注的质量、横向动量, 首要和次要亚喷注之间的${\Delta }R$

, 以及喷注形状N-subjettiness中的$ {\tau }_{21} $

作为它的输入, 图3(a)—(d)分别显示了它们的分布. 我们采用的是Sklearn中的梯度增强决策树(gradient boosted decision tree, GBDT). 其中学习率设置为0.1, 用来训练不同树的样本比例设置为0.9, 每个树的最大深度设置为3. 对于树的个数, 分别采用了100, 200, 300来试图找到最佳的设置. 需要注意的是, 这里出现的并不是全部的设置, 其他的设置可能会出现更好的模型, 这个将在未来进行探索.

图 3 (a)胖喷注的质量分布; (b)胖喷注的横向动量分布; (c)胖喷注含有的首要与次要喷注的距离分布; (d) N-subjettiness $ {\tau }_{21} $

的分布
Figure3. (a) Mass distribution of fat jets; (b) transverse momentum distribution of fat jets; (c) distribution of distance between leading and subleading subjets; (d) distribution of N-subjettiness $ {\tau }_{21} $

模型	AUC	ACC	R50
CNN 1	0.8754	0.8150	39.1103
CNN 2	0.8688	0.8252	53.3583
CNN 3	0.8980	0.8324	80.6715
CNN 4	0.8993	0.8328	79.9350
BDT 1	0.8955	0.8337	32.5351
BDT 2	0.8963	0.8342	32.8072
BDT 3	0.8969	0.8346	33.0144

本站小编 Free考研考试/2021-12-29

English Abstract

Tag Z boson jets via convolutional neural networks

School of Physics, Dalian University of Technology, Dalian 116024, China

Corresponding author:Sun Hao, haosun@dlut.edu.cn

全文HTML

3.1.卷积神经网络(CNN)

3.2.增强决策树(BDTs)

相关话题/信号 结构 图片 观测 设计

领限时大额优惠券,享本站正版考研考试资料!

有机分子吸附和衬底调控锗烯的电子结构

周期调制结构平面薄膜电爆炸实验研究

应力调控BlueP/<i>X</i> Te<sub>2</sub> (<i>X</i> = Mo, W)范德瓦耳斯异质结电子结构

外加横向电场作用下石墨烯纳米带电子结构的密度泛函紧束缚计算

基于开口环阵列结构的表面晶格共振产生及二次谐波增强

Fe-Cr合金辐照空洞微结构演化的相场法模拟

深紫外双层金属光栅偏振器的设计与分析

本征磁性拓扑绝缘体MnBi<sub>2</sub>Te<sub>4</sub>电子结构的压力应变调控

基于等离激元多重杂化效应的光吸收结构

锆铌合金的特殊准随机结构模型的分子动力学研究