删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于迁移学习的暴恐图像自动识别*

本站小编 Free考研考试/2021-12-25

暴恐势力和暴恐事件是影响社会稳定与安全的最大毒瘤。随着Web3.0、社交媒体、5G网络的快速发展,网络上涉恐涉暴的图像传播也随之增多。由于图像与其他传统媒体相比更具鼓动性和传播力,因此这类图像传播造成的危害更大。近年来,各类恐怖组织在互联网上发布的暴力恐怖主义图片或视频日见增多,其试图利用此类图像煽动更多人参与恐怖活动,给社会稳定造成极大影响。因此,加强涉暴恐图像内容的网络监管正成为越来越紧迫的需求。
近年来,人工智能、深度学习技术快速发展,基于深度学习技术的图像分类、图像检测技术逐渐成熟,包括人脸识别、物体识别、黄色图片识别等,但是针对暴恐图像识别的研究成果还比较稀少。
本文基于当前主流的深度学习和迁移学习技术实现对互联网图片暴恐元素的自动化识别,从而提升“算法反恐”[1]水平,加强互联网安全监管。
1 相关研究 当前,对互联网暴恐元素的判别主要采用文本识别、视频分析、音频分析等方法。文献[2]对大数据背景下暴恐信息挖掘方法进行了综述,包括文本分析、情感分析、音视频分析等。文献[3]通过对暴恐敏感标识的检测来识别暴恐图像,如蒙面人的检测,其利用蒙面人头像图片特征呈多峰分布的特点,采用高斯混合模型(GMM)结合方向梯度直方图(HOG)特征对蒙面人头部轮廓进行检测,使用基于像素点统计的局部像素差分法(Local Pixel Difference)完成蒙面人的检测,效率较低,准确率也不高。文献[4]提出一种基于投影特征算法的机场区域中人群暴恐动作智能识别方法。文献[5]对涉暴恐音视频犯罪进行了实证研究。文献[6-7]采用循环神经网络(Recurrent Neural Network,RNN)技术对暴恐信息实体和知识图谱进行研究。总体来看,对暴恐图像分析识别的研究较少。
广义的暴恐组织或暴恐势力包括多个方向,其图像特征种类繁多,差异很大。在图像表现上,主要体现为:①特定标志。②特定人群。持枪支者、持刀者、蓄胡须者等。③特定穿着。黑袍、黑布蒙面等。本文研究的图像包括图片和视频,对视频的检测一般有2种方式,分别是静态方式和动态方式,前者主要通过对视频中关键帧的检测实现视频检测。本文中,对视频的检测主要采用这种方式。因此,综合来讲,暴恐图像的识别检测可以归结为对图片的识别检测。
近年来,随着深度神经网络(Deep Neural Network,DNN)的发展,卷积神经网络(Convolution Neural Network,CNN)[8-10]成为目前深度学习技术领域中非常具有代表性的神经网络之一,在人脸识别、医疗分类、场景分类、图像分析领域取得了众多突破性的进展,在学术界常用的标准图像标注集ImageNet[11]上,基于CNN取得了很多成就,包括图像特征提取分类、场景识别等。CNN相较于传统的图像处理算法的优点之一在于:避免了对图像复杂的前期预处理过程,尤其是人工参与图像预处理过程,CNN可以采用端到端的方式,直接输入原始图像进行一系列工作,至今已经广泛应用于各类图像相关的应用中。
2 算法设计 2.1 构建数据集 根据问题定义,把暴恐图像识别作为一个分类问题看待,形成6个子类,分别为:①特定标志类;②持枪支者、持刀者;③蓄胡须者;④身着黑袍等特定穿着者;⑤黑布蒙面者;⑥正常图片。①~⑤类均为包含暴恐元素的类别,称为正样本,第⑥类属于负样本,所有图片均为JPEG或PNG格式。正样本均来自互联网监管部门,数量较少,为了增加样本量,笔者从部分暴恐视频中抽取关键帧,保存为JPEG图片,通过这种方法有效增加了正样本数量。然后将所有数据进行人工标注,每张图片归为以上6类中的1类或者多类。负样本从ImageNet的1 000个分类中选取,抽样获得5 000张,最后形成训练数据集,按照8: 2的比例,划分为训练数据集和验证数据集,其数量统计如表 1所示。
表 1 数据集数量统计 Table 1 Dataset quantity statistics
类别 样本总数量/张 训练数据集/张 验证数据集/张
特定标志类 960 768 192
持枪支或刀者 860 688 172
蓄胡须者 1 200 960 240
特定穿着者 640 512 128
黑布蒙面者 830 664 166
正常图片 5 000 4 000 1 000


表选项






2.2 迁移学习 深层的CNN包含有大量的网络参数,训练这些参数需要大量的训练数据,由于本文组建的数据库数据量小,在训练网络时网络参数容易过拟合。为解决此问题,采用迁移学习方法。
迁移学习的核心思想是:将在A任务训练得到的模型移植到B任务上来。在大数据时代,要想训练深度学习模型,使模型收敛并得到理想的结果,须要耗费巨大的资源,包括大量的数据资源和计算机资源。但实际情况是,很多时候用于训练模型的数据集较小,仅仅基于有限的数据集进行训练极易造成模型不收敛或者过拟合(Over-fitting)。迁移学习的关键是源任务领域和目标任务领域要有相似性,如图 1所示。假如目标任务是对猫科动物进行自动分类,那么可以选择脊椎动物作为原始训练资源,对模型进行预训练(Pre-training),之后再在该模型基础上,用有限的猫科动物数据集对模型进行微调(Fine-training)。本文中,由于用于训练的暴恐图像数据集有限,因此采用迁移学习的方式,先将模型在ImageNet数据集上进行预训练得到预训练模型,再用暴恐图像数据集对预训练后的模型进行微调。
图 1 迁移学习 Fig. 1 Transfer learning
图选项




2.3 CNN模型设计与训练 对于深度神经网络,在数据和训练算法一致的情况下,采用更先进的网络基础模型可以有效提升分类准确率,但是更先进的基础模型大部分情况下规模更大,计算量也更大,在生产系统中进行部署时,运算速度会更慢。综合考虑准确率和运行速度,选择当前ImageNet数据集上性能最好的模型,包括densenet121[12]、resnext101[13]、efficientnet-b3[14]等。
模型训练和迁移学习过程如图 2所示。CNN一般包括特征提取层和分类器。特征提取部分包含多个级联的卷积层、池化层、归一层等(下文以卷积层为代表),分类器一般包括1~3个全连接层,如图 2上半部分所示。本文实验中所采用的3个模型均用于特征提取,在图 2中,特征提取层部分基于3个模型。以densenet121为例,先基于ImageNet数据集进行预训练,得到网络权重参数,再保留预训练模型网络结构与特征提取层的网络权重参数,将模型输出从1 000分类调整为6类,在自建的暴恐图像数据集上继续训练,得到微调后的网络模型,如图 2下半部分所示。
图 2 模型训练过程 Fig. 2 Model training process
图选项




3 实验分析 本文实验基于ubuntu 16.04系统,配备NVIDIA GTXTitanX显卡,算法基于Pytorch框架实现。先使用ImageNet的预训练模型初始化网络权值,再使用Adam算法[15],基于自有数据集进行网络参数学习。
自建数据集训练时,批量大小设置为32,学习率初始值为1×10-5, 并且每隔1 000次迭代后更新学习率。学习速率(Learning Rate)每20轮(epoch)进行线性递减,降低为前值的1/10。当训练迭代120轮后,结束训练。所有数据按照8: 2划分为训练数据集和验证数据集,并进行5折交叉验证。
真实世界的图片数据变化多样,包括亮度、饱和度、角度、位置等。在训练过程中,考虑到原始训练数据集较小,为避免过拟合,同时应对真实环境中的图像多种变化,对原始训练数据集进行多种复合数据扩增(Data Augmentation),图像变换方式包括随机亮度变化(-30%~30%)、随机平移(-20%~20%)、随机旋转(90°、180°、270°)、随机高斯噪声、随机翻转(水平或垂直翻转)、压缩处理(压缩率不超过50%)、尺寸变化(-60%~100%)、添加水印(加入图片水印)、裁剪(边缘裁剪不超过20%)等。训练过程中,每张图片在进入前向计算之前,都随机地进行以上变换。实验发现,本文方法可以有效提高模型的准确率,同时避免过拟合,尤其适合训练样本较小的场景。
图 3为基于densenet121、resnext101、efficientnet-b3的模型训练结果。为了显示迁移学习的效果,加入了每个模型在未做迁移学习时的平均分类准确率作为对比。
图 3 模型训练结果 Fig. 3 Model training results
图选项




为验证本文方法的可行性,同时对传统的支持向量机(SVM)算法与CNN进行比较。对于SVM模型,通过提取全局特征和局部特征,对暴恐图像进行识别。各算法的最优结果如表 2所示。很明显,3个CNN模型的准确性均优于SVM算法,其中efficientnet-b3的平均分类准确率最高,达到了94.2%。
表 2 不同模型平均分类准确率及训练收敛时间 Table 2 Average classification accuracy rate and training time of different models
模型 输入图像尺寸/像素 平均分类准确率/% 训练收敛时间/轮
SVM 52.3
densenet121 224 89.6 85
resnext101 224 92.9 120
efficientnet-b3 300 94.2 60


表选项






在训练过程中,为了避免过拟合,采用了early stopping策略,也即一旦验证准确率进入稳定期,错误率不再下降,即停止训练。训练过程中,每5轮进行一次验证,输出一次验证结果。从训练时间来看,到模型有效收敛,densenet121、resnext101、efficientnet-b3分别用了85、120、60轮,可以明显看出,efficientnet-b3的训练效率是最高的。
对3个模型进行集成学习(Ensemble Learning)。采取最简单直接的堆叠集成,也即对参与集成的各个模型的输出结果进行加和后取平均值。实验结果如表 3所示。明显的,包含3个模型的集成方式平均分类准确率最高,达到了96.7%,与单个模型最优性能相比,提升了2.5%。
表 3 模型组合的平均分类准确率 Table 3 Average classification accuracy rate of ensemble model
模型组合 平均分类准确率/%
efficientnet-b3+densenet121 94.1
efficientnet-b3+resnext101 96.5
resnext101+densenet121 93.2
efficientnet-b3+resnext101+densenet121 96.7


表选项






进一步分析模型分类结果(以efficientnet-b3模型预测结果为例),重点分析被错误预测为暴恐的图像(False Positive,假阳)和被错误预测为正常的图像(False Negative,假阴),得到:①旗帜和徽章是识别暴恐图片最有效的特征,这个类别样本的预测结果中,假阴率和假阳率分别为0.7%和1.6%,为所有类别中最低的;②存在正常的持枪和蓄胡须人物被错误分类为暴恐图像,因此该特征需要与其他特征结合在一块,用于暴恐图像的识别;③假阴样本中,主要是图片包含的暴恐元素比较单一,如仅仅是穿着上黑布蒙面,但并没有持枪或者蓄胡须等,经常被分类为正常类别。因此,在以后的工作中,应进一步考虑多个特征融合分类,以进一步降低错误率。
4 结束语 本文针对互联网上暴恐图像的检测识别,将问题收敛为图像是否包含几个显著特征,并以此为基础构建训练数据集选择合适的CNN基础模型。针对训练数据集不足的问题,提出使用迁移学习的方法,先在ImageNet数据集进行模型预训练,在此基础上,使用有限的暴恐图像数据集进行模型微调,配合大量的数据扩增技术,进行模型训练。结果显示,在训练数据较少的情况下,采用本文方法可以有效提高分类准确率。同时,也要看到暴恐图像种类繁杂,形式变化,在检测结果中依然存在不少假阳和假阴样本,要进一步提高检测准确率,需要在训练数据数量和多样性方面进一步丰富,同时优化模型网络模型和训练方法。这是今后将要着力研究的方向。

参考文献
[1] 李龙, 支庭荣. "算法反恐":恐怖主义媒介化与人工智能应对[J]. 现代传播(中国传媒大学学报), 2018(9): 13-18.
LI L, ZHI T R. "Algorithmic anti-terrorism":Terrorism media and the response based on artificial intelligence[J]. Modern Communication(Journal of Communication University of China), 2018(9): 13-18. (in Chinese)
[2] 倪叶舟, 张鹏, 扈翔, 等. 大数据背景下暴恐信息挖掘方法综述[J]. 中国公共安全(学术版), 2018(4): 91-95.
NI Y Z, ZHANG P, HU X, et al. Summarization of the methods of information mining in the background of big data[J]. China Public Security(Academy Edition), 2018(4): 91-95. (in Chinese)
[3] 符亚彬.基于Logo标志检测的暴恐视频识别系统的设计与实现[D].北京: 北京交通大学, 2016: 15-30.
FU Y B.Design and implementation of the violent-terrorist video recognition system based on Logo markers detection[D].Beijing: Beijing Jiaotong University, 2016: 15-30(in Chinese). http://cdmd.cnki.com.cn/Article/CDMD-10004-1016115874.htm
[4] 张宁, 朱金福. 机场区域中人群涉暴恐动作智能识别方法仿真[J]. 计算机仿真, 2015, 32(6): 67-70.
ZHANG N, ZHU J F. Intelligent recognition method simulation of ccritical action of people involved in airport areas[J]. Computer Simulation, 2015, 32(6): 67-70. (in Chinese)
[5] 王胜华. 涉暴恐音视频犯罪实证研究——以中国裁判文书网公开的48个判例为分析样本[J]. 江西警察学院学报, 2019(6): 89-96.
WANG S H. An empirical study on audio and video of violent terrorist crimes-Take 48 cases published by China judicial document network as the analysis sample[J]. Journal of Jiangxi Police College, 2019(6): 89-96. (in Chinese)
[6] 黄炜, 黄建桥, 李岳峰. 基于BiLSTM-CRF的暴恐信息实体识别模型研究[J]. 情报杂志, 2019, 38(12): 149-156.
HUANG W, HUANG J Q, LI Y F. Research on entity identification model of terrorism-related information based on BiLSTM-CRF[J]. Journal of Intelligence, 2019, 38(12): 149-156. (in Chinese)
[7] 廖浚斌, 周欣, 何小海, 等. 面向暴恐领域的知识图谱构建方法[J]. 信息技术与网络安全, 2019, 38(9): 34-38.
LIAO J B, ZHOU X, HE X H, et al. Construction method of knowledge graph for terrorism domain[J]. Information Technology and Network Security, 2019, 38(9): 34-38. (in Chinese)
[8] YAN L C, BERNHARD E B, JOHN S D, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551. DOI:10.1162/neco.1989.1.4.541
[9] BENGIO Y, COURVILLE A, VINCENT P. Representation learning:A review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828.
[10] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507. DOI:10.1126/science.1127647
[11] KRIZHEVSKY A, SUTSKEVER I, HINTON G E.Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems.Cambridge: MIT Press, 2012: 1097-1105. https://blog.csdn.net/hongbin_xu/article/details/80271291
[12] HUANG G, LIU Z, WEINBERGER K Q, et al.Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2017: 2261-2269. http://en.cnki.com.cn/Article_en/CJFDTotal-JSJS201810019.htm
[13] HU J, SHEN L, SUN G.Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 7132-7141. https://pubmed.ncbi.nlm.nih.gov/31034408/
[14] TAN M, LE Q.EfficientNet: Rethinking model scaling for convolutional neural networks[C]//Proceedings of the 36th International Conference on Machine Learning.Long Beach: PMLR, 2019: 6105-6114. https://blog.csdn.net/weixin_37993251/article/details/91353858
[15] KINGMA D, BA J.Adam: A method for stochastic optimization[C]//International Conference on Learning Representations, 2014. https://blog.csdn.net/weixin_37993251/article/details/88723271


相关话题/数据 图像 网络 图片 技术

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于结构加权低秩近似的泊松图像去模糊*
    当今,视频监控技术在社会治安管理中起着非常重要的作用,尤其是在夜间等人们不常活动的时间段。然而,成像设备固有的点扩散效应往往导致视频帧(或图像)中存在不同程度的模糊。同时,夜间有限的光照又不可避免地在图像中引起泊松噪声污染。这些因素通常会降低原始图像的质量,造成图像结构信息受损,给后续图像水印和图像 ...
    本站小编 Free考研考试 2021-12-25
  • 基于三元组网络的单图三维模型检索*
    信息时代的到来为计算机硬件的发展提供了强大的助力,各种媒体数据如音频、视频、图像、三维数据等呈井喷式增长。如何对已获得的海量媒体数据进行智能分析,并设计快速有效的检索方法成为目前的热点问题。如今,三维模型被广泛应用于计算机辅助设计、影视动画、医疗诊断、自动驾驶[1-2]等众多领域,由于三维视角更贴近 ...
    本站小编 Free考研考试 2021-12-25
  • 基于收缩场学习的Retinex低照度图像增强*
    受光照强度的影响,在夜间和背光条件下采集的图像往往含有较低的对比度、大面积的暗区域和明显的噪声污染。这些降质图像往往导致人们无法正确地辨识场景内容,也常常给图像检索、多媒体信息安全等后续计算机视觉任务[1-3]带来严峻的挑战。因此,低照度图像增强具有重要的理论价值和现实意义,受到学界广泛关注。早期, ...
    本站小编 Free考研考试 2021-12-25
  • 双光谱智能体温检测与健康大数据管理系统*
    公共安全视频监控是中国一项重要的基础设施建设,具有易于部署、信息捕获充分、接口和标准统一、可全时段运行等优点,对于建立社会治安防控体系具有重要意义,是维护国家安全和社会安定的重要手段[1]。近年来,面向图像分析和视频监控分析的深度学习技术和大数据挖掘技术取得了很多突破性进展,同时也推动了公共安全视频 ...
    本站小编 Free考研考试 2021-12-25
  • 基于MobileFaceNet网络改进的人脸识别方法*
    人脸特征具有易获取、易捕捉、易处理以及非接触式等特性,已经受到****们的广泛关注,并在公共安全等领域应用日趋广泛。但是,在实际的应用场景下,人脸识别精度依然受到不同的姿态、光照、遮挡等因素的影响。因此,如何提取更具鲁棒性的特征来有效地辨识人脸便成为解决问题的关键。传统的人脸识别方法主要有主成分分析 ...
    本站小编 Free考研考试 2021-12-25
  • 基于跨尺度特征聚合网络的多尺度行人检测*
    随着人工智能与计算机视觉技术的发展以及人们对公共安全领域的日益重视,智能视频监控技术已经发展为当前的研究热点。行人检测是智能化视频监控系统中的核心关键技术之一,并为后续的更高层次的视频分析与理解提供可靠的数据支持。因此,行人检测技术直接影响着智能视频监控的智能化水平,具有重要的研究意义和应用价值。近 ...
    本站小编 Free考研考试 2021-12-25
  • 基于U-Net的掌纹图像增强与ROI提取*
    在当今信息化时代,生物特征识别是鉴别个人身份、保护个人信息的有效手段。生物特征识别技术,是指利用机器视觉、图像处理等技术对生物特征采样进行身份识别。现有的主要生物识别特征包括指纹[1]、人脸[2]、虹膜[3]和掌纹[4]等。由于掌纹的纹路是由每个人的基因所决定的,即使后天受损,重新生长出来的纹路也保 ...
    本站小编 Free考研考试 2021-12-25
  • 数据丢包和量化约束下的分布式滚动时域估计*
    计算机和通信技术的日趋成熟促进了网络化系统的快速发展。凭借其结构灵活、可扩展性强、运行成本低等优势,网络化系统被广泛应用于目标跟踪、组网导航、智能交通、工业控制等多个领域[1-4]。网络化系统在带来诸多便利的同时,也带来了新的问题和挑战:数据通过网络传输时,由于通信故障、网络拥塞等因素的存在,不可避 ...
    本站小编 Free考研考试 2021-12-25
  • 基于高分辨率网络的单声道歌声分离*
    单声道歌声分离是指从单声道歌曲中分离出伴奏和歌声,是乐器识别、旋律提取、歌词识别、音高估计等课题的基础[1],作为音乐信息检索领域的一个重要研究课题,近年来得到广泛关注。目前,深度学习在计算机视觉领域取得很大进展,歌声分离算法也逐步利用深度学习技术分离伴奏和歌声,并展现出比矩阵分解、音高估计等方法更 ...
    本站小编 Free考研考试 2021-12-25
  • 一种可变锚框候选区域网络的目标检测方法*
    随着计算机科学和认知神经科学的不断发展,人们想要研发以及开发能够模拟、延伸和扩展人类智能的理论、方法、技术以及应用系统,自此人工智能这一技术科学诞生。模式识别、机器学习和深度学习等理论的不断完善和发展,使得计算机视觉在社会各种领域应用广泛,例如交通、医学、农业等领域都取得了明显的成果。随着计算机视觉 ...
    本站小编 Free考研考试 2021-12-25