近年来,人工智能、深度学习技术快速发展,基于深度学习技术的图像分类、图像检测技术逐渐成熟,包括人脸识别、物体识别、黄色图片识别等,但是针对暴恐图像识别的研究成果还比较稀少。
本文基于当前主流的深度学习和迁移学习技术实现对互联网图片暴恐元素的自动化识别,从而提升“算法反恐”[1]水平,加强互联网安全监管。
1 相关研究 当前,对互联网暴恐元素的判别主要采用文本识别、视频分析、音频分析等方法。文献[2]对大数据背景下暴恐信息挖掘方法进行了综述,包括文本分析、情感分析、音视频分析等。文献[3]通过对暴恐敏感标识的检测来识别暴恐图像,如蒙面人的检测,其利用蒙面人头像图片特征呈多峰分布的特点,采用高斯混合模型(GMM)结合方向梯度直方图(HOG)特征对蒙面人头部轮廓进行检测,使用基于像素点统计的局部像素差分法(Local Pixel Difference)完成蒙面人的检测,效率较低,准确率也不高。文献[4]提出一种基于投影特征算法的机场区域中人群暴恐动作智能识别方法。文献[5]对涉暴恐音视频犯罪进行了实证研究。文献[6-7]采用循环神经网络(Recurrent Neural Network,RNN)技术对暴恐信息实体和知识图谱进行研究。总体来看,对暴恐图像分析识别的研究较少。
广义的暴恐组织或暴恐势力包括多个方向,其图像特征种类繁多,差异很大。在图像表现上,主要体现为:①特定标志。②特定人群。持枪支者、持刀者、蓄胡须者等。③特定穿着。黑袍、黑布蒙面等。本文研究的图像包括图片和视频,对视频的检测一般有2种方式,分别是静态方式和动态方式,前者主要通过对视频中关键帧的检测实现视频检测。本文中,对视频的检测主要采用这种方式。因此,综合来讲,暴恐图像的识别检测可以归结为对图片的识别检测。
近年来,随着深度神经网络(Deep Neural Network,DNN)的发展,卷积神经网络(Convolution Neural Network,CNN)[8-10]成为目前深度学习技术领域中非常具有代表性的神经网络之一,在人脸识别、医疗分类、场景分类、图像分析领域取得了众多突破性的进展,在学术界常用的标准图像标注集ImageNet[11]上,基于CNN取得了很多成就,包括图像特征提取分类、场景识别等。CNN相较于传统的图像处理算法的优点之一在于:避免了对图像复杂的前期预处理过程,尤其是人工参与图像预处理过程,CNN可以采用端到端的方式,直接输入原始图像进行一系列工作,至今已经广泛应用于各类图像相关的应用中。
2 算法设计 2.1 构建数据集 根据问题定义,把暴恐图像识别作为一个分类问题看待,形成6个子类,分别为:①特定标志类;②持枪支者、持刀者;③蓄胡须者;④身着黑袍等特定穿着者;⑤黑布蒙面者;⑥正常图片。①~⑤类均为包含暴恐元素的类别,称为正样本,第⑥类属于负样本,所有图片均为JPEG或PNG格式。正样本均来自互联网监管部门,数量较少,为了增加样本量,笔者从部分暴恐视频中抽取关键帧,保存为JPEG图片,通过这种方法有效增加了正样本数量。然后将所有数据进行人工标注,每张图片归为以上6类中的1类或者多类。负样本从ImageNet的1 000个分类中选取,抽样获得5 000张,最后形成训练数据集,按照8: 2的比例,划分为训练数据集和验证数据集,其数量统计如表 1所示。
表 1 数据集数量统计 Table 1 Dataset quantity statistics
类别 | 样本总数量/张 | 训练数据集/张 | 验证数据集/张 |
特定标志类 | 960 | 768 | 192 |
持枪支或刀者 | 860 | 688 | 172 |
蓄胡须者 | 1 200 | 960 | 240 |
特定穿着者 | 640 | 512 | 128 |
黑布蒙面者 | 830 | 664 | 166 |
正常图片 | 5 000 | 4 000 | 1 000 |
表选项
2.2 迁移学习 深层的CNN包含有大量的网络参数,训练这些参数需要大量的训练数据,由于本文组建的数据库数据量小,在训练网络时网络参数容易过拟合。为解决此问题,采用迁移学习方法。
迁移学习的核心思想是:将在A任务训练得到的模型移植到B任务上来。在大数据时代,要想训练深度学习模型,使模型收敛并得到理想的结果,须要耗费巨大的资源,包括大量的数据资源和计算机资源。但实际情况是,很多时候用于训练模型的数据集较小,仅仅基于有限的数据集进行训练极易造成模型不收敛或者过拟合(Over-fitting)。迁移学习的关键是源任务领域和目标任务领域要有相似性,如图 1所示。假如目标任务是对猫科动物进行自动分类,那么可以选择脊椎动物作为原始训练资源,对模型进行预训练(Pre-training),之后再在该模型基础上,用有限的猫科动物数据集对模型进行微调(Fine-training)。本文中,由于用于训练的暴恐图像数据集有限,因此采用迁移学习的方式,先将模型在ImageNet数据集上进行预训练得到预训练模型,再用暴恐图像数据集对预训练后的模型进行微调。
图 1 迁移学习 Fig. 1 Transfer learning |
图选项 |
2.3 CNN模型设计与训练 对于深度神经网络,在数据和训练算法一致的情况下,采用更先进的网络基础模型可以有效提升分类准确率,但是更先进的基础模型大部分情况下规模更大,计算量也更大,在生产系统中进行部署时,运算速度会更慢。综合考虑准确率和运行速度,选择当前ImageNet数据集上性能最好的模型,包括densenet121[12]、resnext101[13]、efficientnet-b3[14]等。
模型训练和迁移学习过程如图 2所示。CNN一般包括特征提取层和分类器。特征提取部分包含多个级联的卷积层、池化层、归一层等(下文以卷积层为代表),分类器一般包括1~3个全连接层,如图 2上半部分所示。本文实验中所采用的3个模型均用于特征提取,在图 2中,特征提取层部分基于3个模型。以densenet121为例,先基于ImageNet数据集进行预训练,得到网络权重参数,再保留预训练模型网络结构与特征提取层的网络权重参数,将模型输出从1 000分类调整为6类,在自建的暴恐图像数据集上继续训练,得到微调后的网络模型,如图 2下半部分所示。
图 2 模型训练过程 Fig. 2 Model training process |
图选项 |
3 实验分析 本文实验基于ubuntu 16.04系统,配备NVIDIA GTXTitanX显卡,算法基于Pytorch框架实现。先使用ImageNet的预训练模型初始化网络权值,再使用Adam算法[15],基于自有数据集进行网络参数学习。
自建数据集训练时,批量大小设置为32,学习率初始值为1×10-5, 并且每隔1 000次迭代后更新学习率。学习速率(Learning Rate)每20轮(epoch)进行线性递减,降低为前值的1/10。当训练迭代120轮后,结束训练。所有数据按照8: 2划分为训练数据集和验证数据集,并进行5折交叉验证。
真实世界的图片数据变化多样,包括亮度、饱和度、角度、位置等。在训练过程中,考虑到原始训练数据集较小,为避免过拟合,同时应对真实环境中的图像多种变化,对原始训练数据集进行多种复合数据扩增(Data Augmentation),图像变换方式包括随机亮度变化(-30%~30%)、随机平移(-20%~20%)、随机旋转(90°、180°、270°)、随机高斯噪声、随机翻转(水平或垂直翻转)、压缩处理(压缩率不超过50%)、尺寸变化(-60%~100%)、添加水印(加入图片水印)、裁剪(边缘裁剪不超过20%)等。训练过程中,每张图片在进入前向计算之前,都随机地进行以上变换。实验发现,本文方法可以有效提高模型的准确率,同时避免过拟合,尤其适合训练样本较小的场景。
图 3为基于densenet121、resnext101、efficientnet-b3的模型训练结果。为了显示迁移学习的效果,加入了每个模型在未做迁移学习时的平均分类准确率作为对比。
图 3 模型训练结果 Fig. 3 Model training results |
图选项 |
为验证本文方法的可行性,同时对传统的支持向量机(SVM)算法与CNN进行比较。对于SVM模型,通过提取全局特征和局部特征,对暴恐图像进行识别。各算法的最优结果如表 2所示。很明显,3个CNN模型的准确性均优于SVM算法,其中efficientnet-b3的平均分类准确率最高,达到了94.2%。
表 2 不同模型平均分类准确率及训练收敛时间 Table 2 Average classification accuracy rate and training time of different models
模型 | 输入图像尺寸/像素 | 平均分类准确率/% | 训练收敛时间/轮 |
SVM | 52.3 | ||
densenet121 | 224 | 89.6 | 85 |
resnext101 | 224 | 92.9 | 120 |
efficientnet-b3 | 300 | 94.2 | 60 |
表选项
在训练过程中,为了避免过拟合,采用了early stopping策略,也即一旦验证准确率进入稳定期,错误率不再下降,即停止训练。训练过程中,每5轮进行一次验证,输出一次验证结果。从训练时间来看,到模型有效收敛,densenet121、resnext101、efficientnet-b3分别用了85、120、60轮,可以明显看出,efficientnet-b3的训练效率是最高的。
对3个模型进行集成学习(Ensemble Learning)。采取最简单直接的堆叠集成,也即对参与集成的各个模型的输出结果进行加和后取平均值。实验结果如表 3所示。明显的,包含3个模型的集成方式平均分类准确率最高,达到了96.7%,与单个模型最优性能相比,提升了2.5%。
表 3 模型组合的平均分类准确率 Table 3 Average classification accuracy rate of ensemble model
模型组合 | 平均分类准确率/% |
efficientnet-b3+densenet121 | 94.1 |
efficientnet-b3+resnext101 | 96.5 |
resnext101+densenet121 | 93.2 |
efficientnet-b3+resnext101+densenet121 | 96.7 |
表选项
进一步分析模型分类结果(以efficientnet-b3模型预测结果为例),重点分析被错误预测为暴恐的图像(False Positive,假阳)和被错误预测为正常的图像(False Negative,假阴),得到:①旗帜和徽章是识别暴恐图片最有效的特征,这个类别样本的预测结果中,假阴率和假阳率分别为0.7%和1.6%,为所有类别中最低的;②存在正常的持枪和蓄胡须人物被错误分类为暴恐图像,因此该特征需要与其他特征结合在一块,用于暴恐图像的识别;③假阴样本中,主要是图片包含的暴恐元素比较单一,如仅仅是穿着上黑布蒙面,但并没有持枪或者蓄胡须等,经常被分类为正常类别。因此,在以后的工作中,应进一步考虑多个特征融合分类,以进一步降低错误率。
4 结束语 本文针对互联网上暴恐图像的检测识别,将问题收敛为图像是否包含几个显著特征,并以此为基础构建训练数据集选择合适的CNN基础模型。针对训练数据集不足的问题,提出使用迁移学习的方法,先在ImageNet数据集进行模型预训练,在此基础上,使用有限的暴恐图像数据集进行模型微调,配合大量的数据扩增技术,进行模型训练。结果显示,在训练数据较少的情况下,采用本文方法可以有效提高分类准确率。同时,也要看到暴恐图像种类繁杂,形式变化,在检测结果中依然存在不少假阳和假阴样本,要进一步提高检测准确率,需要在训练数据数量和多样性方面进一步丰富,同时优化模型网络模型和训练方法。这是今后将要着力研究的方向。
参考文献
[1] | 李龙, 支庭荣. "算法反恐":恐怖主义媒介化与人工智能应对[J]. 现代传播(中国传媒大学学报), 2018(9): 13-18. LI L, ZHI T R. "Algorithmic anti-terrorism":Terrorism media and the response based on artificial intelligence[J]. Modern Communication(Journal of Communication University of China), 2018(9): 13-18. (in Chinese) |
[2] | 倪叶舟, 张鹏, 扈翔, 等. 大数据背景下暴恐信息挖掘方法综述[J]. 中国公共安全(学术版), 2018(4): 91-95. NI Y Z, ZHANG P, HU X, et al. Summarization of the methods of information mining in the background of big data[J]. China Public Security(Academy Edition), 2018(4): 91-95. (in Chinese) |
[3] | 符亚彬.基于Logo标志检测的暴恐视频识别系统的设计与实现[D].北京: 北京交通大学, 2016: 15-30. FU Y B.Design and implementation of the violent-terrorist video recognition system based on Logo markers detection[D].Beijing: Beijing Jiaotong University, 2016: 15-30(in Chinese). http://cdmd.cnki.com.cn/Article/CDMD-10004-1016115874.htm |
[4] | 张宁, 朱金福. 机场区域中人群涉暴恐动作智能识别方法仿真[J]. 计算机仿真, 2015, 32(6): 67-70. ZHANG N, ZHU J F. Intelligent recognition method simulation of ccritical action of people involved in airport areas[J]. Computer Simulation, 2015, 32(6): 67-70. (in Chinese) |
[5] | 王胜华. 涉暴恐音视频犯罪实证研究——以中国裁判文书网公开的48个判例为分析样本[J]. 江西警察学院学报, 2019(6): 89-96. WANG S H. An empirical study on audio and video of violent terrorist crimes-Take 48 cases published by China judicial document network as the analysis sample[J]. Journal of Jiangxi Police College, 2019(6): 89-96. (in Chinese) |
[6] | 黄炜, 黄建桥, 李岳峰. 基于BiLSTM-CRF的暴恐信息实体识别模型研究[J]. 情报杂志, 2019, 38(12): 149-156. HUANG W, HUANG J Q, LI Y F. Research on entity identification model of terrorism-related information based on BiLSTM-CRF[J]. Journal of Intelligence, 2019, 38(12): 149-156. (in Chinese) |
[7] | 廖浚斌, 周欣, 何小海, 等. 面向暴恐领域的知识图谱构建方法[J]. 信息技术与网络安全, 2019, 38(9): 34-38. LIAO J B, ZHOU X, HE X H, et al. Construction method of knowledge graph for terrorism domain[J]. Information Technology and Network Security, 2019, 38(9): 34-38. (in Chinese) |
[8] | YAN L C, BERNHARD E B, JOHN S D, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551. DOI:10.1162/neco.1989.1.4.541 |
[9] | BENGIO Y, COURVILLE A, VINCENT P. Representation learning:A review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828. |
[10] | HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507. DOI:10.1126/science.1127647 |
[11] | KRIZHEVSKY A, SUTSKEVER I, HINTON G E.Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems.Cambridge: MIT Press, 2012: 1097-1105. https://blog.csdn.net/hongbin_xu/article/details/80271291 |
[12] | HUANG G, LIU Z, WEINBERGER K Q, et al.Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2017: 2261-2269. http://en.cnki.com.cn/Article_en/CJFDTotal-JSJS201810019.htm |
[13] | HU J, SHEN L, SUN G.Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 7132-7141. https://pubmed.ncbi.nlm.nih.gov/31034408/ |
[14] | TAN M, LE Q.EfficientNet: Rethinking model scaling for convolutional neural networks[C]//Proceedings of the 36th International Conference on Machine Learning.Long Beach: PMLR, 2019: 6105-6114. https://blog.csdn.net/weixin_37993251/article/details/91353858 |
[15] | KINGMA D, BA J.Adam: A method for stochastic optimization[C]//International Conference on Learning Representations, 2014. https://blog.csdn.net/weixin_37993251/article/details/88723271 |