1.State Key Laboratory of Quantum Optics and Quantum Optics Devices, Institute of Theoretical Physics, Shanxi University, Taiyuan 030006, China 2.Key Laboratory of Optical Field Manipulation of Zhejiang Province, Physics Department,Zhejiang Sci-Tech University, Hangzhou 310018, China
Fund Project:Project supported by the National Natural Science Foundation of China (Grant Nos. 11804205, 12074340)
Received Date:03 March 2021
Accepted Date:14 April 2021
Available Online:14 May 2021
Published Online:20 August 2021
Abstract:Laser technology plays fundamental roles in the modern optical experiments and applications. The performance of optical devices will be significantly affected by micro impurities and defects on the optical surfaces. Therefore, precisely positioning the optical impurities and defects is an important issue in optics. In this paper, we theoretically propose to adopt the deep learning neural networks in addressing this problem. Specifically, we generate the training data via simulating the dynamic process in which a probe optical pulse being scattered by a micro-impurity on an optical surface, and then the position information of the impurity carried by the reflection and the transmission signal can be efficiently learned by a deep convolutional neural network. One step further, we show that the deep neural network can make precise predictions on the generalization datasets generated through varying the size, refractive index, and geometry of the impurity, respectively. Additionally, we also compared the learning capability of two different networks architectures. This work provides new perspective for the impurity and defect detections in the field of precision optics. Keywords:optical impurity detection/ machine learning/ neural network/ deep learning
本文考虑一束沿z方向极化的脉冲激光, 沿x方向垂直照射某光学介质, 介质的厚度为L, 如图1(a)所示. 介质表面某处有一凸起的杂质, 杂质的尺寸为l. 脉冲激光的电场强度$ E\left( {\boldsymbol{r}}, t\right) $满足波动方程[22-24] 图 1 (a) 模型示意图; (b) 光强度分布, 其中实线表示入射光信号, 虚线和点划线分别表示反射光$I^{\rm R}$和透射光$I^{\rm T}$; (c) 卷积神经网络示意图 Figure1. (a) Schematic of our model; (b) light intensity distributions where the solid line is the probe light, and the dashed and the dot-dashed lines denote $I^{\rm R}$ and $I^{\rm T}$, respectively; (c) architecture of the convolutional neural network.
从定义上可以看出, $ a_i $表示对于给定的测试数据i, 其$ P(z^{\rm c}|I) $中概率最大的类与杂质的真实类是否一致, 如果一致则贡献$ 1 $, 否则没有贡献. $ VA $是$ a_i $对所有测试数据的平均. 因此对于训练而言, 损失函数$ {\cal{L}} $下降的同时伴随着精确度$ VA $的提升. 图2(a)和图2(b)分别给出了训练过程中损失函数$ {\cal{L}} $和精确度$ VA $随训练epoch数的变化曲线, 其中epoch定义为所有训练数据整体流过神经网络的次数. 在每幅图中, 实线和虚线分别为独立利用反射信号$ I^{\rm R} $和透射信号$ I^{\rm T} $作为网络输入的训练曲线. 结果表明, 网络可以从$ I^{\rm R} $或$ I^{\rm T} $中学习提取杂质位置信息的能力, 并且在约为40个epoch时得以收敛, 具体表现为损失函数$ {\cal{L}} $下降至零附近, 伴随着$ VA $达到约$ 100\% $, 网络收敛标志着训练完成. 训练完成后, 选取任意一组测试数据, 并绘出预测概率分布$ P^{\rm R, T}(z^{\rm c}|I) $如图2(c)和图2(d)所示, 可以看出, 网络的预测概率分布高度集中, 表明网络对杂质位置的判断具有很高的置信度. 图 2 (a) 训练过程中, 损失函数${\cal{L}}$随epoch的变化; (b) 训练过程精确度$VA$随epoch的变化; (c) 反射信号训练出的网络的预测概率分布$P^{\rm R}(z^{\rm c}|I)$; (d)透射信号训练出的网络的预测概率分布$P^{\rm T}(z^{\rm c}|I)$ Figure2. (a) Dependence of ${\cal{L}}$ on epochs in the training process; (b) dependence of $VA$ on epochs in the training process; (c) typical inferential probability $P^{\rm R}(z^{\rm c}|I)$; (d) typical inferential probability $P^{\rm T}(z^{\rm c}|I)$.
2.卷积神经网络架构下的网络泛化一般而言, 检验一个机器学习模型是否学习到了提取核心信息的本领, 需要进行泛化能力测试[32]. 泛化能力是指网络在训练和测试集以外的更广义的数据集上具有的预判能力, 这一点对于所考虑的问题尤为重要. 这是因为, 上述训练过程中用到的训练集是针对较大杂质$ l = 4\varDelta $的, 我们希望神经网络学习到的辨别杂质位置的本领可以自动泛化到小的杂质上, 从而能帮助实验在小杂质检测方面提供理论预测和指导, 因为小杂质通常来说比较难以定位. 因此, 对训练好的网络进行以下三个方面的泛化能力测试: 杂质大小l的泛化、杂质折射率n的泛化、以及杂质形状(geometry)的泛化, 这三种泛化测试的结果分别如图3(a)—图3(c)中, 其中图3(a)固定杂质折射率为$ n = \sqrt{6} $, 形状为方形, 改变杂质边长; 图3(b)固定杂质边长为$ l = 4\varDelta $且形状为方形, 改变杂质折射率; 图3(c)固定边长为$ l = 4\varDelta $以及折射率为$ n = \sqrt{6} $, 改变杂质形状. 对于每一幅子图, 左侧一栏表示利用反射/透射信号训练后的网络的预测精确度, 而在右侧一栏呈现了在一组典型数据下反射信号训练出网络的预测概率分布$ P^{\rm R}(z^{\rm c}|I) $. 泛化测试用到的所有测试集大小都为200, 它们的生成方法与上述训练集生成方法一致, 差别在于生成泛化集需要改变如图3所示的杂质的相关属性. 图 3 (a) 杂质大小泛化; (b) 杂质折射率泛化; (c) 杂质形状泛化. (a1), (b1)和(c1)表示泛化精确度; (a2), (b2)和(c2)表示典型数据下的泛化预测概率$P^{\rm R}(z^{\rm c}|I)$. (d) 多形状杂质联合训练后的网络预测, 其中(d1)表示测试精确度, (d2)表示典型数据下的预测概率 Figure3. (a)–(c) Generalization capability of the convolutional neural network, where (a1), (b1) and (c1) denote the generalization $VA$, and (a2), (b2), (c2) correspond to the typical inferential probability $P^{\rm R}(z^{\rm c}|I)$, respectively; (d) inferential probability of neural network trained by impurities with different geometries, where (d1) denotes the testing $VA$, and (d2) corresponds to the typical inferential probability $P^{\rm R}(z^{\rm c}|I)$.
可以看出, 网络在这三种不同数据集上都表现出了较强的泛化能力, 并且在训练参数下($ l = 4\varDelta $, $ n = \sqrt{6} $, 位形为方形杂质)表现出最高的预测精度. 下面对泛化结果做几点说明: 1)网络对不同大小杂质的预测呈现出了一些振荡, 但总体精确度不低于75% (图3(a1)), 并且预测精确度呈现振荡的原因与杂质边长l的奇偶性相关. 这一现象与杂质类号的定义中的取整$ {\rm int} $有关. 试想, 当杂质边长l为偶数倍$ \varDelta $时, 杂质质心位置$ z^0 \!=\! n \varDelta $总可以被定义在$ \varDelta $的整数倍处, 但是对于奇数倍$ \varDelta $的杂质的质心总是被定义在$ \varDelta $的半整数倍处$z^0 \!=\! (2n \!+\! 1)\varDelta/2$. 结果表明, 这部分差异也被神经网络所捕捉到. 为证实这一观点, 同样测试了训练集为$ l = 3\varDelta $情况下网络的泛化能力, 结果表明, 在奇数倍$ \varDelta $的杂质泛化测试集上精确度较高, 而在偶数倍$ \varDelta $测试集上精确度较低. 关于这一点还需额外说明, 这种奇偶差异会随着$ \varDelta $$ \rightarrow0 $而逐渐消失, 但$ \varDelta $的减小对应于空间的无限精细离散化, 这在数值模拟上带来了巨大的计算开销. 2)在杂质折射率的泛化测试中(图3(b1)), 基于反射信号和透射信号的泛化精确度都会随着折射率n减小至1而逐渐衰减至零. 这是合理的, 因为$ n = 1 $对应杂质消失, 因而无论是反射还是透射信号内都不会携带任何杂质的信息. 3)图3(c)表明, 虽然神经网络仅在方形杂质训练集上训练, 但其在其他几何形状的杂质上也有较强的泛化能力. 并且, 容易发现, 泛化精确度与杂质的反射对称性有关. 因为训练集是具有左右反射对称性的方形杂质, 因而在图3(c)中, 同样具有反射对称性的条形(左一)和楔形(左二)杂质上体现出较高的泛化能力, 而在反射对称性缺失的其他杂质上泛化能力相对较弱. 另外, 考虑到在实际的光学检测中, 杂质形状往往并不具有特定的对称性, 因而测试了不同形状杂质联合训练的结果, 如图3(d1)和图3(d2)所示, 即在训练集中包含等量的不同杂质形状的反射、透射信号(8种不同形状, 每种100个样本, 保持$ N_{\rm train} = 800 $). 结果表明, 经此训练后神经网络的整体预测精确度有大幅提升(对比图3(c1)和图3(d1)), 并且预测概率分布也变得更加集中(对比图3(c2)和图3(d2)), 即网络对预测变得更加确信. 3.讨 论针对上述的计算和泛化做三点讨论. 第一, 上述计算中采用了业界较为常见的卷积神经网络架构. 接下来将其与纯全连接神经网络(fully connected neural network, FCNN)的学习能力做一个比较. 为保证比较的公平性, 控制FCNN 网络的层数以及总参数个数与之前的CNN网络接近. 图4(a)具体给出了FCNN网络的架构和参数, 其中输入层神经元个数为512; 隐含层神经元个数依次为256, 310, 448, 310, 237, 与之对应的激活函数为“Relu”函数; 输出层神经元个数为32, 激活函数为“softmax”函数. 图4(b)—图4(d)比较了CNN和FCNN两种网络在杂质大小、杂质折射率和杂质形状, 其中左侧一栏对应反射信号训练的结果, 右侧一栏对应透射信号训练的结果. 可以看出两种不同网络在泛化集上都有较好的表现, 但是两者相较而言, CNN的表现更为优异. CNN具有一定的优越性可以这样来理解: 关于单个杂质衍射的问题是具有空间平移不变性的, 这里的平移不变指的是杂质衍射后对反射/透射信号所产生的局部特征并不依赖于杂质所处的位置. 已有理论表明[33], 在针对具有平移不变特征的提取问题上, CNN 具有更大的优势, 因为其卷积核可以被重复利用. 换言之, 若要使FCNN达到与CNN一样的效果, 则需要引入更多的参数, 我们的测试也印证了这一点. 第二, 在上述的计算中, 仅仅呈现了光学表面的凸杂质情形, 但事实上光学表面的损伤除了凸杂质还有凹杂质. 本文同样测试了神经网络对凹杂质位置的学习能力, 典型的结果如图5所示, 其中图5(a)和图5(b) 分别表示凹杂质学习的训练损失曲线以及训练后网络对杂质大小l的泛化测试. 结果表明, 神经网络对凹杂质也体现出很强的学习能力. 第三, 本文讨论了单个杂质的检测问题, 但受限于目前的数值仿真计算能力, 只考虑了光学杂质仅在单一方向移动这一简单情形. 我们希望这些结果可以在一定程度上揭示机器学习在光学检测中的潜在应用价值, 为光学检测提供新的基于机器学习的算法思路. 我们下一步的研究方向将侧重于提升光学仿真的计算能力和探讨新的基于机器学习的算法, 例如迁移学习[34]和残差网络[35]在多杂质复杂光学系统中的应用价值. 图 4 (a) FCNN结构示意图; (b)?(d) 两种神经网络的泛化能力比较, 其中 (b1), (c1)和(d1)分别表示反射信号训练下网络杂质大小、杂质折射率和杂质形状的泛化精确度, (b2), (c2) 和(d2)分别表示透射信号训练下网络杂质大小、杂质折射率和杂质形状的泛化精确度 Figure4. (a) Architecture of the fully connected neural network; (b)?(d) comparison of the generalization capability between the CNN and the FCNN. (b1), (c1) and (d1) display the $VA$ of the NNs trained by the reflection signals, and (b2), (c2) and (d2) show the $VA$ of the NNs trained by the transmission signals.
图 5 (a) 凹杂质的训练过程中, 损失函数${\cal{L}}$随epoch的变化; (b) 杂质大小的泛化精确度 Figure5. (a) Dependence of ${\cal{L}}$ on epochs in the training process of concave impurity; (b) generalization $VA$ of the impurity size.