删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于深度学习轻量化的改进SSD煤矸快速分选模型

本站小编 Free考研考试/2024-01-15

李娟莉1,2, 魏代良1,2, 李博1,2, 文小1,2
1. 太原理工大学 机械与运载工程学院, 山西 太原 030024;
2. 太原理工大学 煤矿综采装备山西省重点实验室, 山西 太原 030024
收稿日期:2022-07-08
基金项目:国家自然科学基金资助项目(51875386,51804207)。
作者简介:李娟莉(1979-),女,山西寿阳人,太原理工大学教授。

摘要:针对SSD目标检测模型参数量大、运行速率低的问题,在SSD模型的基础上提出一种新的煤矸快速识别模型DSR-SSD.应用深度可分离卷积代替主干特征提取网络中的普通卷积,减少了模型的计算量;将RFB模块融入到SSD模型中,提高了模型的特征提取能力.经验证,DSR-SSD模型的识别速率为113.99帧/s、精确率为95.17%.将DSR-SSD与SSD,Faster-RCNN,YOLOv3三种模型对比,发现DSR-SSD模型与SSD模型相比,精确率提高了2.29%,识别速率提高了60.89%;同时,DSR-SSD模型的精确率比Faster-RCNN模型高2.86%,比YOLOv3模型高2.71%,识别速率分别是Faster-RCNN模型和YOLOv3模型的14.90倍和3.65倍,证明了DSR-SSD模型性能优越.
关键词:煤矸分选深度学习目标检测SSD模型轻量化
Improved SSD Rapid Separation Model of Coal Gangue Based on Deep Learning and Light-Weighting
LI Juan-li1,2, WEI Dai-liang1,2, LI Bo1,2, WEN Xiao1,2
1. College of Mechanical and Vehicle Engineering, Taiyuan University of Technology, Taiyuan 030024, China;
2. Shanxi Key Laboratory of Fully-Mechanized Coal Mining Equipment, Taiyuan University of Technology, Taiyuan 030024, China
Corresponding author: LI Bo, E-mail: libo@tyut.edu.cn.

Abstract: A new model DSR-SSD for coal gangue fast identification is proposed based on the SSD model to address the issues of large parameter quantities and low operating speed in the SSD model. The application of deep separable convolutions in the backbone feature extraction network reduces the computational complexity, and integrating the RFB module into the SSD model improves the model's feature extraction ability. After verification, the recognition rate of the DSR-SSD model is 113.99 frames/s, and the accuracy rate is 95.17%. Comparing DSR-SSD with SSD, Faster-RCNN, and YOLOv3 models, it is found that the DSR-SSD model improves the accuracy by 2.29% and the recognition rate by 60.89% compared to the SSD model, and the accuracy of the DSR-SSD model is 2.86% higher than the Faster-RCNN and 2.71% higher than the YOLOv3, with recognition rates 14.90 and 3.65 times higher than the Faster-RCNN and YOLOv3.
Key words: coal gangue separationdeep learningtarget detectionSSD modellight-weighting
煤矸分选是煤炭开采过程中的重要部分,高质量的煤矸分选可以使煤炭得到清洁高效利用,开展煤矸分选技术的研究对于减少环境污染、提高煤炭利用率具有重要意义[1].
早期的煤矸识别方法有人工分选、选择性破碎、射线分选等方法[2-3],由于这些煤矸分选方法存在人体伤害、环境污染和设备昂贵等问题,近年来,****们开始利用视觉差异进行煤矸识别,如利用图像处理进行煤矸识别,此方法可以解决环境污染、人体伤害等问题.目前对煤矸图像识别的方法多采用机器学习的相关算法,通过自行构造提取特征的方法对图像进行分类,取得了较好的效果,文献[4-6]分别采用多种形式的支持向量机(SVM)进行煤矸识别,能够准确识别煤和矸石,但是存在特征构造困难且需要大量先验知识的问题.
随着计算机运算性能的提升以及大量****的不断研究,深度学习算法发展迅速,利用深度学习进行图像识别可以充分利用图像中煤和矸石的各种特征,并且不需要复杂的图像处理知识,在图像处理方面展现出明显的优势,深度学习在进行煤矸识别时主要应用图像分类和目标检测两类算法.文献[7-9]利用深度学习中的图像分类算法实现了对煤矸的识别,但是图像分类算法只能对含有同一种类目标的图像进行分类,无法识别含有多个目标种类的图像,而且无法判断目标在图像中的位置.在目标检测方面,深度学习包含Faster-RCNN,SSD,YOLO等[10-12]多种算法,具有良好的性能.单鹏飞等[13]利用改进后的Faster-RCNN实现了下落过程中煤和矸石的识别.Li等[14]提出了一种应用可变形卷积的YOLOv3算法,提高了煤矸识别的准确率.文献[15-16]利用改进的YOLOv4算法实现了高精度的煤矸识别.上述针对煤矸识别算法的研究都实现了高精度的识别,但是针对基于深度学习的煤矸石目标检测算法参数量大、运行速率慢等问题的研究仍相对较少.
Shafiee等[17]在YOLOv2算法的基础上提出一种新的模型,将参数量减少64%,速率提升3.3倍.宋欣等[18]在YOLOv3算法的基础上利用稀疏训练和剪枝率阈值设置的方法实现了模型运行速率的大幅度提升.SSD模型作为目标检测模型中的一种,结构比YOLOv3算法简单,参数量更少,通过对其改进可实现运行速率的进一步提高.
本文在SSD模型的基础上引入深度可分离卷积和感受野模块(receptive field block, RFB),得出一种新的煤矸识别模型,进一步减少计算量,提高准确率,同时兼顾运行速率和准确率,并将改进后的模型应用于对煤和矸石的识别,得到了很好的效果.
1 SSD煤矸识别模型1.1 经典SSD目标检测模型经典SSD目标检测模型采用金字塔式结构来获得不同层次的特征图,然后进行目标检测,该模型按功能可以划分为目标特征提取、目标位置确定、目标类别确定三部分,模型结构如图 1所示.图中class表示类别.
图 1(Fig. 1)
图 1 SSD网络结构Fig.1 SSD structure

在特征提取部分采用VGG16为主干特征提取网络,将VGG16网络最后的全连接层改为卷积层,然后继续添加卷积层来获得更深层次的特征.
模型中目标位置和目标类别确定部分,分别用于预测框和真实框之间框的位置回归和框内目标类别的判别,因此产生了位置回归损失函数和类别置信度损失函数,这两部分损失函数的加权和就组成了SSD模型的目标损失函数,计算式为
(1)
式中:N代表与真实框匹配的预测框数量,如果N为0,那么整个损失定义为0;Lconf(x, c)表示置信度损失,计算式为
(2)
(3)
式中:Pos为正样本;Neg为负样本;i为搜索框序号;j为真实框序号;p为类别序号,当p=0时表示背景.xijp表示第i个锚框匹配到第j个真实框,而这个真实框的类别为p.cip表示第i个锚框对应类别p的预测概率.公式(2)前半部分是正样本的损失,后半部分是负样本的损失.位置回归损失Lloc(x, l, g)的计算式为
(4)
式中:l为预测框;g为真实框;(cx, cy)为补偿后的预测框中心;SL1为损失函数;(w, h)为预测框的宽和高,使用SL1损失可以避免梯度爆炸的出现.
1.2 SSD模型分析SSD目标检测模型在多种目标检测任务中都表现优秀,但用于煤矸识别时需要进一步优化.相比于其他目标检测任务,煤矸识别任务有两大特点:①特征量少.煤和矸石的外形结构简单,识别时需要提取的特征相对较少;②识别快速.要求模型能够快速地对目标做出判断,以保证分拣设备及时地将煤和矸石分离,但经典的SSD模型的主干特征提取网络VGG16中包含了大量的卷积、池化运算,增加了参数量,降低了运行速率.因此需要通过进一步优化,减少模型参数量,提高运行速率.
2 基于改进SSD的煤矸识别模型为解决上述问题,本文将引入深度可分离卷积,同时应用RFB模块对主干特征提取网络进行轻量化改进,以减少运算量,提高运算速率和准确率.
2.1 深度可分离卷积本文引入的深度可分离卷积分为DepthWise(DW卷积)和PointWise(PW卷积)两部分,其工作原理见图 2.
图 2(Fig. 2)
图 2 深度可分离卷积Fig.2 Deep separable convolution

其中DW卷积是逐通道卷积,它的卷积核数目与输入层数相同,每个卷积核只对输入层的一个通道进行独立卷积,所以DW卷积的输出通道数等于输入通道数.PW卷积与传统的卷积非常相似,其卷积核为1×1×KK为上一层的通道数.PW卷积的功能就是调整特征图的通道数.DW卷积和PW卷积使得深度可分离卷积的参数计算量大幅度减少.在输入相同时,深度可分离卷积和传统卷积的参数计算量比较式如下:
(5)
式中:SD表示深度可分离卷积的计算量;SC表示传统卷积的计算量;SDW表示DW卷积的计算量;SPW表示PW卷积的计算量;DF表示输入特征矩阵的大小;DK表示卷积核的大小;M表示输入特征矩阵的深度;L表示输出特征矩阵的深度.由于卷积核的大小为3×3,即DK=3,由式(5)可以看出,在相同输入的情况下,传统卷积网络的计算量是深度可分离卷积网络计算量的8~9倍.
2.2 RFB模块针对煤矸识别模型特征提取能力和运行速率难以平衡的问题,本文引入RFB模块的思想.如图 3所示,RFB模块采用了更多的分枝和更多尺寸的卷积核进行特征提取,可以更好地提取特征.
图 3(Fig. 3)
图 3 RFB结构Fig.3 RFB structure

2.3 改进的SSD煤矸识别模型(DSR-SSD)经过上述分析,本文在SSD模型的基础上进行改进,得到新的煤矸分选模型,记为DSR-SSD模型(图 4),改进步骤如下:
图 4(Fig. 4)
图 4 DSR-SSD模型结构图Fig.4 DSR-SSD model structure

1) 在原主干特征提取网络的基础上引入深度可分离卷积,减少模型的计算量,提高模型的运算速率.
2) 将图 4中的Conv4_3和Conv7两特征层进行融合,对于Conv4_3层仅将通道数调整为256,得到新的特征图,对于Conv7层要先进行通道数调整,并进行上采样得到新的特征图,然后将两个新的特征层进行融合,最后输入如图 3结构的RFB模块中.
3) 步骤2)改进形成的RFB模块融合了Conv4_3和Conv7的特征信息,所含信息量要多于图 1中的Conv6特征层,并且多次训练模型发现是否保留Conv6层对模型的准确率没有影响,但是Conv6层的存在会增加模型计算量,故将其删除.
4) 将图 1中的Conv8卷积层替换为RFB模块,进一步提高特征提取能力.
步骤2)和步骤4)的改进没有大量增加计算量,但是大幅度地提高了特征提取能力和模型的准确率,原因有:①步骤2)中的特征层融合使网络浅层的位置信息和深层的语义信息融合到同一特征图中做进一步的特征提取.②运用了RFB模块,增强了特征提取能力并且扩大了感受野.RFB首先采用尺寸为1×1,3×3,1×7和7×1等多种尺寸卷积核对输入的图片进行卷积,增强了特征提取能力.
使用空洞卷积可以在不损失分辨率的前提下扩大感受野,可以更好地获得目标的精确位置,同时还可以分割大物体,有利于对大尺寸目标的检测.空洞卷积感受野计算式为
(6)
式中: o表示感受野;d表示膨胀卷积率;f表示原卷积核的大小.可以设置不同尺寸的感受野,从而获得多尺寸的特征信息,增强特征提取能力.
3 试验验证为验证所提算法的性能,本文设计试验流程如图 5所示.首先进行样本获取,利用搭建的试验台采集图像,并进行标注.数据集制作完成后,确定模型的评价指标,用于评价模型性能,然后将所提模型进行训练,并与多种目标检测模型进行对比分析.
图 5(Fig. 5)
图 5 试验流程Fig.5 Test process

3.1 数据获取3.1.1 样本获取本研究所采用的样本来自山西省西铭煤矿,为获得有代表性的样本,将获得的煤在试验室进行重新选取,而矸石是在煤矸分选厂的矸石堆放现场进行选取,共获得500块煤和450块矸作为样本.
3.1.2 图像采集采用图 6进行图像采集,采用型号为LA-GM-02K08A-00-R的TELEDYNE DASLA线阵工业相机,设置图像大小为1 024×2 048,采用计算机控制相机和储存图片.采用型号为LTS-2LINS900-W的LOTS光源,用光源控制器调整光照强度为71 900 lx,设定传送带的速度为0.48 m/s,经调整后达到最佳成像状态.最后将获得的样本放到传送带上,经排队机构到达相机的拍摄区进行拍摄.在图像采集过程中利用不同角度会产生视觉差异的特点,通过变换样本的角度、位置和随机翻转样本的方法对样本进行多次拍摄,同时,对获得的图像进行镜像、旋转、裁剪等操作,以扩充数据集,减少模型对某些属性的依赖,提高模型的泛化能力.经筛选后得到可用数据集5 981张.
图 6(Fig. 6)
图 6 试验台Fig.6 Test bench

3.1.3 数据标注本文采用LabelImg软件对数据集进行标注.标注完成后将5 981张数据进行划分,其中训练集3 988张,验证集443张,测试集1 550张.
3.2 评价指标精确率P表示模型预测为某一类的所有样本中真正属于该类别的样本所占的比例.召回率R表示所有样本中被正确预测的样本所占的比例.其计算式为
(7)
(8)
式中: TP表示模型预测为某一类别且确实属于该类别的样本个数;FP表示模型预测为某一类别但不属于该类别的样本数;FN表示模型预测为不属于某一类别且确实不属于该类别的样本数.
类精确率是以P值为纵坐标、R值为横坐标所形成曲线(P-R曲线)的面积,衡量的是模型对某一类别目标的识别能力.模型精确率是所有类精确率加和之后的平均值.
帧率(frames per second,FPS)是图像领域中的定义,是指画面每秒传输帧数,采用FPS来测量模型每秒的识别速率,进而衡量模型的运行速率.
3.3 模型训练本模型在系统为Windows10,显卡型号为NVIDIA GeForce RTX 2070,CPU型号为AMDRyzen 5 5600X 6-Core Processor的计算机上进行训练,采用TensorFlow2.2.0深度学习框架搭建算法模型,用3.1.3节获得的训练集进行训练,并在每个轮次结束后用3.1.3节中所得验证集进行验证.在训练模型时,设定初始学习率为5×10-4,并指定学习率的衰减方式为指数衰减,设置训练轮次为200,图像批处理大小为8,并且在每次训练结束后将模型的权重参数进行保存,最后选择验证集中准确率最高的权重参数作为最优权重参数,并且设置了提前结束功能,当验证损失函数连续10次都没有下降时将自动结束训练,有效地避免了因轮次设定不合理而导致模型出现过拟合现象.训练完成后模型的损失函数值为1.24,损失函数曲线见图 7.最后,用3.1.3节所得的测试集对模型的性能进行测试,得到模型对于矸石的精确度为96.94%,对煤的精确度为93.40%,模型精确率为95.17%.
图 7(Fig. 7)
图 7 训练损失曲线Fig.7 Training loss curve

3.4 模型分析性能优越的模型不仅有高的准确率,还要有高的识别速率.为了更好地显示DSR-SSD模型的性能,本文选用SSD,YOLOv3,Faster-RCNN模型在相同的条件下进行训练测试,并从模型的类精确率、模型精确率、FPS值、参数量和不同密集度情况下的模型效果进行对比.
3.4.1 模型精确率分析各个模型训练完毕后,用相同测试集分别测试每个模型的性能,得到了每个模型中的类精确率、模型精确率,如表 1所示.
表 1(Table 1)
表 1 各模型类精确率、模型精确率Table 1 Class accuracy and model accuracy of each model
模型类精确率/%模型精确率/%
矸石
DSR-SSD 93.40 96.94 95.17
SSD 89.67 96.09 92.88
Faster-RCNN 94.49 90.13 92.31
YOLOv3 91.76 93.16 92.46


表 1 各模型类精确率、模型精确率 Table 1 Class accuracy and model accuracy of each model

表 1中可以看出,DSR-SSD模型在类精确率和模型精确率两方面都超过了原SSD模型,模型准确率提高2.29%,表明在煤矸识别方面,DSR-SSD模型的性能优于原SSD模型.综合分析表 1可得,DSR-SSD模型的精确率比Faster-RCNN高2.86%,比YOLOv3高2.71%.
3.4.2 模型识别速率分析煤矸分选设备需要及时地分拣出矸石,要求识别模型能够快速地对目标做出识别,然后指导设备将煤和矸石进行分离,表 2对各个模型的识别速率进行对比.
表 2(Table 2)
表 2 模型识别速率Table 2 Model recognition rates
模型 FPS/(帧·s-1) 参数量/MB
DSR-SSD 113.99 45.1
SSD 70.85 91.2
Faster-RCNN 7.65 108
YOLOv3 31.20 235


表 2 模型识别速率 Table 2 Model recognition rates

表 2可知,DSR-SSD的FPS值最高,识别速率最快.相比于其他模型,DSR-SSD模型的识别速率比原SSD模型提高60.89%,是Faster-RCNN模型的14.9倍,是YOLOv3模型的3.65倍.同时DSR-SSD模型的参数量最少,比SSD模型参数减少50.54%,是Faster-RCNN模型的0.42倍,是YOLOv3模型的0.19倍.因此,DSR-SSD模型将消耗更少的计算资源,更容易应用到小型计算平台上.
3.4.3 多密集度目标效果展示如图 8所示,本文分别用单个矸石、单个煤、煤和矸石成对存在以及多个煤和矸石4种情况,探究不同密集度情况下的模型效果.首先挑选了一块与煤极其相似的矸石进行识别,结果发现只有DSR-SSD模型能够正确识别,其他模型均做出了错误判断.单个煤时,4种模型均正确识别. 当将一块煤和一块矸石放在一起时发现Faster-RCNN模型出现类别判断错误.当多个煤和矸石放在一起时,只有DSR-SSD模型正确判定目标的位置和类别,其余3种模型都出现了不同程度的错误,原SSD模型出现了位置判定错误和类别判断错误,Faster-RCNN模型出现了目标漏检现象,YOLOv3模型同样出现了位置判定错误和类别判断错误.综上所述,若综合考虑模型的准确率和运行速率,本文所提出的DSR-SSD模型胜过其他3种模型,在煤矸分选方面有着明显的优势.
图 8(Fig. 8)
图 8 多密度效果展示Fig.8 Multi-density effect display (a)—矸石;(b)—煤;(c)—煤和矸石;(d)—多个煤和矸石.

4 结论1) 将深度可分离卷积引入SSD模型的主干特征提取网络,并删除原模型中某些特征提取层,减少模型参数,可以降低模型计算量,提高模型运行速率.
2) 引入RFB模块,利用多尺寸卷积核进行卷积,可以提高模型的特征提取能力,利用膨胀卷积扩大感受野,提高对大尺寸目标的检测能力.
3) 最后得到DSR-SSD煤矸识别模型,比原模型参数减少50.54%,运行速率提高60.89%,准确率提高2.29%.
参考文献
[1] 张文静, 马喜立. 以环境税治理雾霾的减排效果及减排成本——基于动态多区域CGE模型[J]. 北京理工大学学报(社会科学版), 2020, 22(3): 36-47.
(Zhang Wen-jing, Ma Xi-li. Emission reduction effect and emission reduction cost of haze by environmental tax—a dynamic multi-region CGE analysis[J]. Journal of Beijing Institute of Technology (Social Sciences Edition), 2020, 22(3): 36-47.)
[2] 曹亦俊, 刘敏, 邢耀文, 等. 煤矿井下选煤技术现状和展望[J]. 采矿与安全工程学报, 2020, 37(1): 192-201.
(Cao Yi-jun, Liu Min, Xing Yao-wen, et al. Current situation and prospect of underground coal preparation technology[J]. Journal of Mining & Safety Engineering, 2020, 37(1): 192-201.)
[3] 宋亮, 刘善军, 毛亚纯, 等. 基于可见光-近红外光谱的煤种分类方法[J]. 东北大学学报(自然科学版), 2017, 38(10): 1473-1476.
(Song Liang, Liu Shan-jun, Mao Ya-chun, et al. Coal classification based on visible and near-infrared spectrum[J]. Journal of Northeastern University (Natural Science), 2017, 38(10): 1473-1476.)
[4] Wang W D, Lu Z Q, Lu H R. Research on methods to differentiate coal and gangue using image processing and a support vector machine[J]. International Journal of Coal Preparation and Utilization, 2021, 41(8): 603-616. DOI:10.1080/19392699.2018.1496912
[5] Dou D Y, Zhou D Y, Yang J, et al. Coal and gangue recognition under four operating conditions by using image analysis and relief-SVM[J]. International Journal of Coal Preparation and Utilization, 2018, 40(7): 1-10.
[6] Wang X Q, Wang S, Guo Y, et al. Dielectric and geometric feature extraction and recognition method of coal and gangue based on VMD-SVM[J]. Powder Technology, 2021, 392(7): 241-250.
[7] Xie Y T, Chi X W, Li H J, et al. Coal and gangue recognition method based on local texture classification network for robot picking[J]. Applied Sciences, 2021, 11(23): 100-113.
[8] Pu Y Y, Apel D B, Szmigiel A, et al. Image recognition of coal and coal gangue using a convolutional neural network and transfer learning[J]. Energies, 2019, 12(9): 1735-1745.
[9] Bai F Y, Fan M Q, Yang H P, et al. Fast recognition using convolutional neural network for the coal particle density range based on images captured under multiple light sources[J]. International Journal of Mining Science and Technology, 2021(31): 1053-1061.
[10] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[11] Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//European Conference on Computer Vision. Tel Aviv, Israel: Springer, 2016: 21-37.
[12] Redmon J, Farhadi A. YOLOv3:an incremental improvement[J]. ArXiv, 2018, 7: 18-24.
[13] 单鹏飞, 孙浩强, 来兴平, 等. 基于改进Faster R-CNN的综放煤矸混合放出状态识别方法[J]. 煤炭学报, 2022, 47(3): 1382-1394.
(Shan Peng-fei, Sun Hao-qiang, Lai Xing-ping, et al. Identification method on mixed and release state of coal-gangue masses of fully mechanized caving based on improved Faster R-CNN[J]. Journal of China Coal Society, 2022, 47(3): 1382-1394.)
[14] Li D Y, Wang G F, Zhang Y, et al. Coal gangue detection and recognition algorithm based on deformable convolution YOLOv3[J]. IET Image Processing (Wiley-Blackwell), 2021, 16(1): 134-144.
[15] 来文豪, 周孟然, 胡锋, 等. 基于多光谱成像和改进YOLOv4的煤矸石检测[J]. 光学学报, 2020, 477(24): 72-80.
(Lai Wen-hao, Zhou Meng-ran, Hu Feng, et al. Coal gangue detection based on multi-spectral imaginig and improved YOLOv4[J]. Acta Optica Sinica, 2020, 477(24): 72-80.)
[16] Liu Q, Li J G, Li Y S, et al. Recognition methods for coal and coal gangue based on deep learning[J]. IEEE Access, 2021, PP(99): 77599-77610.
[17] Shafiee M J, Chywl B, Li F, et al. Fast YOLO: a fast you only look once system for real-time embedded object detection in video[J]. Journal of Computational Vision and Imaging Systems, 2017, 3(1): 18-20.
[18] 宋欣, 李奇, 解婉君, 等. YOLOv3-ADS: 一种基于YOLOv3的深度学习目标检测压缩模型[J]. 东北大学学报(自然科学版), 2021, 42(5): 609-615.
(Song Xin, Li Qi, Xie Wan-jun, et al. YOLOv3-ADS: a compression model for deep learning object detection based on YOLOv3[J]. Journal of Northeastern University (Natural Science), 2021, 42(5): 609-615.)

相关话题/

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19