删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向个体人员特征的跨模态目标跟踪算法*

本站小编 Free考研考试/2021-12-25

个体人员的跨模态目标跟踪在视频智能分析、无人驾驶、自主系统导航等各个领域都有着广泛应用,特别是在公安视频监控信息深度挖掘分析方面。传统目标跟踪对象非常多样,包括动物、人、物品、车辆、飞机等一切可以移动的对象,而在实际应用或某一领域内,重点关注的往往是某一类别的对象,如交通领域关注的主要是机动车、物流领域关注的是物品等,针对特定类别对象目标跟踪开展研究能够为具体应用提供更具针对性的模型和方法,有很强的实用价值。
本文将跟踪目标聚焦在个体人员上,主要有如下考虑:①在复杂场景下对个体人员开展跟踪具有较强的技术挑战性,特别是在自然环境下多个人员同时出现时,类内干扰是制约跟踪性能的主要问题,主要原因在于当前跟踪器主干网络的预训练基于图片分类任务,对于对象类别不敏感,单纯依靠视觉特征进行区分难度较大,如何利用多维度信息解决这类问题具有学术研究价值。②个体人员的跟踪问题在多个领域有着广泛的应用,如公共安全智能视频监控、无人驾驶对道路行人检测、机器人导航避障、个体生物特征步态识别等,都需要对人员目标进行跟踪,而目前针对具体对象的跟踪算法研究比较缺乏,对这些问题开展研究具有很强的实用价值和应用前景。③将语言先验知识与视觉任务进行结合的研究方法具有很强的研究意义。单纯以数据驱动的深度学习模型在可解释性、鲁棒性、稳定性上都存在一定的局限性,实际应用中用户都有任务意图,如何将这种意图反映到算法中实现真正的任务驱动具有非常重要的现实意义,而利用先验知识协同视觉模型完成跟踪任务实现了知识驱动与数据驱动的结合,将能够在多个方面提升算法能力,且能够应用在多种视觉任务上。
综上,本文提出了跨模态的个体人员目标跟踪框架,该框架结合了自然语言特征和视觉特征,增强了个体人员跟踪的鲁棒性,有效降低了类内干扰给跟踪性能带来的影响。为保证训练和检验本文算法的有效性,构建了基于个体人员特征的专用目标跟踪数据集,并进行了仿真验证,本文算法在专用数据集上的表现也超过了现有主流算法模型。
1 关键技术 1.1 视觉单目标跟踪 目前,从目标跟踪算法上来说,单目标跟踪算法可以分为基于检测和基于模板匹配两大类。基于检测的目标跟踪算法以相关滤波跟踪为主,将待搜索图片输入相关滤波器,计算与目标区域的相关响应,根据相关性计算得分来区分前景和背景,此类算法在跟踪速度和准确性上都取得了很好的效果。随着深度神经网络的不断演进发展,基于模板匹配的目标跟踪算法开始引入相关模块,孪生匹配网络首先被应用于目标跟踪任务中[1],在此基础上利用区域推荐网络[2]、注意力机制[3]、更深更宽的主干网络[4-5]、数据增强训练[6]、强化学习[7]、模板更新[8]等方法,能够进一步提升性能。但是目前性能最好的跟踪器,在对外表特征相似的同类对象区分上也存在不足,这种情况在针对个体人员的跟踪上尤为突出。
1.2 视觉引用表达 近年来,将自然语言处理应用于计算机视觉中的研究得到了广泛关注[9]。本文重点关注的视觉引用表达(Referring Expression或Visual Grounding),其是指在接收一张图片和一个语言指令或描述之后,定位出图片当中与语言描述相关的目标。文献[10]利用卷积神经网络(CNN)和长短时记忆单元网络(LSTM)分别从图片和语言描述中抽取特征拼接后训练,完成图像的分割任务,如图 1所示,左图为原图,中图为分割标准,右图为预测结果,语言描述为:man in blue shirt in the right side。文献[11]提出了利用语言进行目标跟踪的3种模型。MAttNet[12]将语言描述划分为主语、位置和关系3个部分,并用不同模块与图像进行联合处理训练获得图像分割。近期的一些研究着眼于将最新的BERT架构引入视觉与自然语言融合处理的领域,在视觉应用表达上也取得了不错的效果[13-14]
图 1 视觉引用表达图像分割示意 Fig. 1 Image segmentation of visual referring expression
图选项




1.3 目标跟踪数据集 数据集是用来对模型算法进行训练、评估和测试的基础工具,目前目标跟踪领域的数据集非常丰富。OTB(Object Tracking Benchmark)[15-16]在2013年和2015年分别推出了包含50个和100个视频的数据和标注;2013年推出的VOT(Visual Object Tracking)包含16个短视频序列,而后每年进行更新;2017年发布的NFS(Need for Speed)[17]包含100个高帧率视频;TrackingNet[18]包含30 132个视频;GOT-10k[19]包含10 000段视频;LaSOT[20]包含了70类1 400段高密度标注的视频。但是还没有专门针对个体人员跟踪的数据集,要想训练出适应于复杂场景下跨模态的跟踪模型,需要有定制的专用数据集。
2 跨模态目标跟踪模型 本文提出利用语言先验知识对个体人员目标跟踪进行监督和引导,充分利用非视觉信息,辅助视频信息的分析处理,提高特定人员目标跟踪的精确性,提升目标的发现和追踪能力,为视频数据与其他异构数据和知识进行关联融合提供一种新的思路和方法。
2.1 整体框架 该框架主要分为3个模块(见图 2):基于Siamese孪生架构的视觉跟踪模块、基于递归神经网络(RNN)的语言引导模块、基于IoU交并比优化的融合判别模块。模型从数据集中第1帧图像的标注(Ground Truth)获得跟踪目标特征,与要跟踪的后续视频帧一起作为输入送入视觉跟踪分支进行视觉判别;语言引导分支将语言描述和被搜索视频帧作为输入,通过语言模型处理在图片中描述确定要跟踪目标的位置和范围,形成注意力蒙版;将视觉分支和语言分支输出的结果分别送入融合判别模块,根据视觉跟踪模块输出的分类置信度与基于交并比IoU的位置置信度选出最佳目标框,再通过位置框优化,最终输出结果。
图 2 跨模态目标跟踪整体框架 Fig. 2 Cross-modal object tracking framework
图选项




2.2 基于Siamese孪生架构的视觉跟踪模块 视觉跟踪模块基于SiamMask模型[21],将ResNet-50[22]作为视觉特征抽取主干网络,输出256维的目标跟踪对象和搜索帧的特征图;再对特征图进行深度交叉相关运算,得到多通道响应图,该响应图是对目标跟踪对象和搜索帧视觉相似度的编码;基于该编码通过区域推荐网络(RPN)[2]生成目标候选区域(分类置信度),并通过回归优化更准确地定位目标区域(位置置信度)。SiamMask采用最高分类得分值选出最终目标框,本文将采用位置置信度和分类置信度相结合的方式获得更加准确的结果。
2.3 基于RNN的语言引导模块 语言引导模块借鉴DMN[23]的网络结构,分别使用CNN和RNN来提取每帧图片和描述语言的特征。利用LSTM的升级版SRU模块处理词嵌入et后的句子隐含状态ht,再将其与词嵌入进行拼接得到状态语言特征rt
(1)

借鉴文献[11]的思想,利用动态滤波器处理rt后得到fk, t,与视觉特征IN进行卷积获得Ft,将语言特征、视觉特征和位置特征进行拼接后用1×1卷积得到特征响应图Mt
(2)

用双插值进行上采样后,获得与原始图片尺寸一致的蒙版响应图,用最小封闭矩形框(MER)计算得到基于位置的目标框。为了确保该模块对人员特征的提取有效性,利用专用数据集进行了针对性训练,使该模型对类内干扰、人员移动、遮挡、模糊等问题具有更强的判定识别能力。
2.4 基于IoU交并比优化的融合判别模块 在获得视觉特征推荐和语言引导的定位后,该融合判别模块负责利用位置置信度和分类置信度获得最佳目标框。首先,将视觉跟踪模块推荐分类得分最高的50个候选框提出,再计算它们与语言引导模块所得目标框的重叠率IoU,根据IoU得分的高低来确定最佳目标框。受IoU guided NMS[24]启发,临近的候选框对于精确定位仍有价值,因此基于位置得分最高的候选框,找出分数排名前20的其他候选框,用IoU值作为权重,计算得到需要微调的位置坐标。然后,对位置得分最高的候选框进行微调处理,获得最终回归的目标框。融合判别模块有2个功能:①基于位置置信度和分类置信度选择最佳的候选框;②基于相邻众多候选框,对最佳候选框进行微调优化,获得最终目标框结果,如图 3所示,粉色框为SiamMask分类最高分的框,蓝色框为语言引导模块生成的框,绿色框是利用位置置信度和分类置信度获得的结果。语言描述为:man walking along the street。
图 3 多模块回归预测结果 Fig. 3 Results of multiple modules predicted regression
图选项




3 专用数据集构建及技术实现 3.1 专用数据集构建 本文旨在研究个体人员特征的目标跟踪任务,现有数据集无法满足需求,需要构建针对个体人员专用数据集进行训练。①目前通用数据集中没有专门针对人员个体跟踪的数据集,通用数据集都有部分个体的视频数据片段和标注,需要将这类数据进行汇集整合,供模型训练、评估和测试用;②目前的单目标数据集中除LaSOT和lingual OTB99[11]外,都没有提供自然语言的描述标注,因此在引入语言引导模块时,没有语言描述数据可用,需要构建专用数据集支持这类模型。基于此,本文构建了PerTrack专用数据集,从多个数据集中收集了以人员为跟踪目标的视频数据,按照固定格式对数据标注和语言描述进行整理,对没有语言描述的数据进行补充。从GOT-10k获取了58个视频,从LaSOT获取了20个视频,从OTB获取了25个视频,视频片段都与人员相关,类别包含跳舞、短跑、路人、歌手、滑冰、马拉松等与人相关的场景。另外,按照7 : 1 : 2的比例,对人员目标跟踪数据进行训练集(Train)、评估集(Trainval)和测试集(Test)的分类。每个具体的视频文件夹下,除了每个视频帧的图片外,提供了标注Ground Truth(GT);还提供了自然语言的描述文本和根据Ground Truth生成的双值目标分割蒙版,用于为DMN模型提供训练。经过前期工作,目前从不同渠道收集到针对人员的视频数据103段,共90 926帧:73段用于训练,共63 818帧;10段用于评估,共8 292帧;20段用于测试,共18 816帧。
3.2 技术实现 为使视觉跟踪模块和语言引导模块分支保持非相关性,进行了独立的训练。前者采用SiamMask的预训练模型,后者使用专门数据集进行训练和优化,最后在决策层进行融合。
在数据预处理阶段,将专用数据集中的标注Ground Truth转化为二值蒙版供训练使用,由于跟踪数据集标注的Ground Truth提供了左上角坐标cxcy和目标框宽度w,高度h,需要将其转化为二值蒙版供语言引导模块使用。将目标框内的值设为255,目标框外的值设为0,就形成训练数据。
在语言引导模块的参数优化和微调阶段,将DMN模型的预训练权重作为参考。DMN的预训练模型参数是基于ReferIt[25]进行训练的,ReferIt针对具有19 894张图片和130 525个语言描述开展训练,但适应跟踪的模型参数有所不同。针对人员特征的目标跟踪任务,需要用到本文构建的训练数据集进行训练。因此在本文实验中,分别将模型在低分辨率和高分辨率下训练7个和5个epoch,获得最终的模型参数。
在测试阶段,将DMN网络输出的蒙版利用最小封闭矩形框进行变换后输出结果,如图 4所示,右图为通过语言引导模块输出的结果,通过最小封闭矩形框获得目标框,左图为在视频某帧上的对应展示,语言描述为:girl in yellow shirt with purple pants,与视觉跟踪模块输出进行融合。
图 4 最小封闭矩形框生成图 Fig. 4 Illustration of minimum enclosing rectangle
图选项




4 实验与结果分析 利用自建的数据集对模型进行训练,得到实验需要用到的参数。主要完成3组实验:①对语言引导模型在执行跟踪数据训练前后的效果进行对比评估;②选用部分主流跟踪算法在自建数据集上测试评估,与本文算法的性能作对比;③在不给出第1帧跟踪目标的情况下,直接用语言引导模型检测被跟踪对象测试结果的评估。
4.1 语言引导模块评估 所有参数训练都是基于DMN在ReferIt数据集预训练的基础上开展的,针对不同的训练数据生成不同参数,对比测试评估不同数据集训练后的模型参数对人员个体目标检测任务的效果。测试效果用平均交并比mIoU来评估,其是衡量图像分割精度的重要指标。计算平均真实值和预测值的交集和并集之比,即在每个类别上计算IoU值,再在所有类别上求平均即得mIoU。表 1中,参数0表示只在ReferIt数据集训练的结果,参数1表示在参数0的基础上,在lingual OTB99上做微调的结果,参数2表示在参数0的基础上,在lingual OTB99和LaSOT上做微调的结果,优化参数表示在参数0的基础上,在专用数据集PerTrack的训练集上的结果。
表 1 语言引导模块评估结果对比 Table 1 Comparison results of language guided module
模型参数类型 平均交并比
参数0 0.241 3
参数1 0.359 8
参数2 0.349 8
优化参数 0.465 0


表选项






表 1分析对比看出,不同数据集对语言引导模块效果有着直接影响。lingual OTB和LaSOT都是不分类别的目标跟踪数据集,而本文采用的是针对人员类别的数据集,因此在针对人员跟踪检测的评估集上的测试结果上来看,效果有了大幅度提升。
另外,利用语言引导模型还对lingual OTB99的评测结果进行了对比实验,目的是评估针对特定跟踪目标类别训练后的参数对通用数据集的影响。
图 5结果进行分析,对比的跟踪器为主流孪生网络跟踪器,包括SiamMask[21]、SiamRPN[2]和SiamFC[1],其中LangTrack为用通用数据集训练的模型参数,取得了最优效果,PerTrack为用行人专用数据集训练的结果,效果比利用纯视觉信息的主流跟踪器的效果差。结果说明,在通用目标跟踪任务中采用专用数据集训练,会使模型具有对专用目标的偏向性,导致整体效果欠佳,说明模型是具有类别敏感性的。
图 5 主流跟踪器的结果比较 Fig. 5 Comparative results among mainstream trackers
图选项




4.2 跟踪任务评估 为了将本文设计的模型与主流跟踪算法在行人跟踪专用数据集上的表现做比较,对当前最新的单目标跟踪算法进行了测试,结果如表 2图 6所示。相比于原有纯视觉模型,增加语言引导模块有效提升了算法的准确性和鲁棒性,同时也超越了现有主流跟踪算法的性能,但跟踪速度只能达到4帧/s,低于现有主流跟踪算法,原因在于语言引导模型的运行影响了跟踪处理速度。算法性能的提升主要得益于专用数据集的训练和语言先验知识的监督。本文采用一遍成功率(One-Pass Evaluation,OPE)作为评估指标,即运行一次跟踪算法,获取每一帧跟踪目标的位置和大小,由平均精度和成功率对其进行评分。
表 2 本文模型与主流跟踪算法评估结果对比 Table 2 Comparative results between proposed model and mainstream tracking algorithms
算法 平均精度 成功率
SiamRPN[2] 0.493 0.566
SiamRPN++[5] 0.508 0.612
SiamMask[21] 0.708 0.808
ECO[26] 0.647 0.797
ATOM[27] 0.732 0.848
DIMP[28] 0.787 0.841
本文模型 0.930 0.978


表选项






图 6 本文模型与主流跟踪算法的OPE评估结果 Fig. 6 OPE evaluation results between proposed model and mainstream tracking algorithms
图选项




本文还对不同主流跟踪器效果进行了可视化。如图 7所示,其中红色框为SiamRPN++,绿色框为SiamRPN,蓝色框为ATOM,黑色框为DIMP,粉色框为ECO,青色框为SiamMask,灰色框为本文模型。
图 7 不同跟踪器效果可视化 Fig. 7 Results visualization of different trackers
图选项




4.3 语言检测跟踪评估 传统跟踪任务是给定第1帧对象后开展视觉跟踪,但在实际公安视频应用中,大部分场景能够获取对目标对象的语言描述,因此,利用模型完成先检测目标后跟踪的任务更具有实用价值。如图 8所示,pertrack_DMN表示原模型的结果,pertrack_GTfree表示没有给定目标框,仅靠语言检测后进行跟踪的结果,pertrack_SiamMask表示SiamMask跟踪模型的结果,数据集用PerTrack的测试集。实验表明,在不给定第1帧目标框情况下,仅用语言先验检测出目标再进行跟踪的结果也优于纯视觉跟踪,但由于没有视觉信息的辅助,整体性能略低于原模型。
图 8 语言检测跟踪评估 Fig. 8 Tracking assessment of language detection
图选项




4.4 结果分析 通过上述3组实验,得出如下结论:
1) 将语言先验引入面向人员特征的目标跟踪任务能有效提升跟踪精度和鲁棒性,特别是在多人干扰的场景下,语言描述能够很好地定位被跟踪人员位置,提升算法跟踪抗类内干扰的能力。
2) 语言引导模型具有目标类别敏感性,用于针对行人跟踪的模型不能用于通用目标跟踪,否则对纯视觉模型造成干扰,因此,在应用时需要对某类对象进行针对性训练和微调。
3) 语言描述不适用所有跟踪场景。不是所有场景都能够用语言来描述目标对象,而且某一帧适用的描述随着场景变化,在后面的帧中不一定适用,因此,部分复杂场景应用中可以考虑用语言进行目标检测后,用纯视觉进行跟踪。
5 结束语 针对个体人员特征目标跟踪中存在的类内干扰问题,提出了一种引入语言先验知识引导的人员目标跟踪算法,并设计了由视觉跟踪模块、语言引导模块和融合判别模块组成的跨模态目标跟踪框架,同时为保证训练和测试模型的有效性,构建了专用的跨模态个人目标跟踪数据集。实验结果表明本文提出的模型与现有主流跟踪模型相比具有更好的精度和鲁棒性。
本文将数据驱动的视觉深度学习模型与语言先验知识相结合,为公安领域视频监控信息的深度挖掘和关联等提供了一种新的思路,下一步的研究可以将语言先验知识的引导拓展到多目标跟踪、行人再识别、图像分类等其他视觉任务中。另外,利用本文提供的专用数据集,可以提升跨模态人员跟踪的精度,如果能够进一步丰富该数据集的内容,将更多真实公安场景下的数据和标注补充到数据集中,将能够训练出更多适应不同场景可复制、可重用的算法模型,或者为不同机构提供的算法进行测评,这些工作将有利于进一步提升公安视频监控的应用效能。

参考文献
[1] BERTINETTO L, VALMADRE J, HENRIQUE J F, et al.Fully-convolutional siamese networks for object tracking[C]//European Conference on Computer Vision.Berlin: Springer, 2016: 850-865.
[2] LI B, YAN J, WU W, et al.High performance visual tracking with siamese region proposal network[C]//Proceedings of the IEEE Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 8971-8980.
[3] KOSIOREK A R, BEWLEY A, POSNER I, et al.Hierarchical attentive recurrent tracking[C]//Neural Information Processing Systems, 2017, 36: 3053-3061.
[4] ZHANG Z, PENG H.Deeper and wider siamese networks for real-time visual tracking[C]//Proceedings of the IEEE Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2019: 4591-4600.
[5] LI B, WU W, WANG Q, et al. Evolution of siamese visual tracking with very deep networks[J]. IEEE Computer Vision and Pattern Recognition, 2019, 35(9): 4282-4291.
[6] ZHU Z, WANG Q, LI B, et al.Distractor-aware siamese networks for visual object tracking[C]//European Conference on Computer Vision.Berlin: Springer, 2018: 103-119.
[7] REN L, YUAN X, LU J, et al.Deep reinforcement learning with iterative shift for visual tracking[C]//European Conference on Computer Vision.Berlin: Springer, 2018: 684-700.
[8] ZHANG L, GONZALEZGARCIA A, DE WEIJER J V, et al.Learning the model update for siamese trackers[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2019: 4010-4019.
[9] MOGADALA A, KALIMUTHU M, KLAKOWl D, et al. Trends in integration of vision and language research:A survey of tasks, datasets, and methods[J]. IEEE Computer Vision and Pattern Recognition, 2019, 30(19): 1183-1986.
[10] HU R, ROHRBACH M, DARRELL T, et al.Segmentation from natural language expressions[C]//European Conference on Computer Vision.Berlin: Springer, 2016: 108-124.
[11] LI Z, TAO R, GAVVES E, et al.Tracking by natural language specification[C]//Proceedings of the IEEE Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2017: 7350-7358.
[12] YU L, LIN Z, SHEN X, et al.Modular attention network for referring expression comprehension[C]//Proceedings of the IEEE Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 1307-1315.
[13] SUN C, MYERS A, VONDRICK C, et al.A joint model for video and language representation learning[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2019: 7464-7473.
[14] SU W, ZHU X, CAO Y, et al.Pre-training of generic visual-linguistic representations[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2019: 13-23.
[15] WU Y, LIM J, YANG M, et al.Online object tracking: A benchmark[C]//Proceedings of the IEEE Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2013: 2411-2418.
[16] WU Y, LIM J, YANG M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848. DOI:10.1109/TPAMI.2014.2388226
[17] GALOOGAHI H K, FAGG A, HUANG C, et al.A benchmark for higher frame rate object tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2017: 1134-1143.
[18] MULLER M, BIBI A, GIANCOLA S, et al.A large-scale dataset and benchmark for object tracking in the wild[C]//European Conference on Computer Vision.Berlin: Springer, 2018: 310-327.
[19] HUANG L, ZHAO X, HUANG K, et al. A large high-diversity benchmark for generic object tracking in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 45(21): 1374-1391.
[20] FAN H, LIN L, YANG F, et al.A high-quality benchmark for large-scale single object tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2018: 5374-5383.
[21] WANG Q, ZHANG L, BERTINETTO L, et al.Fast online object tracking and segmentation: A unifying approach[C]//Proceedings of the IEEE Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2019: 1328-1338.
[22] HE K, ZHANG X, REN S, et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2016: 770-778.
[23] MARGFFOYTUAY E A, PEREZ J C, BOTERO E, et al.Dynamic multimodal instance segmentation guided by natural language queries[C]//European Conference on Computer Vision.Berlin: Springer, 2018: 656-672.
[24] JIANG B, LUO R, MAO J, et al.Acquisition of localization confidence for accurate object detection[C]//European Conference on Computer Vision.Berlin: Springer, 2018: 816-832.
[25] KAZEMZADE S, ORDONEZ V, MATTENV M, et al.Referring to objects in photographs of natural scene[C]//Empirical Methods in Natural Language Processing, 2014, 28: 787-789.
[26] DANELLJIAN M, BHAT G, KHAN F S, et al.Efficient convolution operators for tracking[C]//Proceedings of the IEEE Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2017: 6931-6939.
[27] DANELLJIAN M, BHAT G, KHAN F S, et al.Accurate tracking by overlap maximization[C]//Proceedings of the IEEE Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2019: 4660-4669.
[28] BHAT G, DANELLJAN M, VAN GOOL L, et al.Learning discriminative model prediction for tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2019: 6182-6191.


相关话题/数据 语言 视觉 测试 网络

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于SM4算法的白盒密码视频数据共享系统*
    在公共视频监控领域的纵向多级网络中,存储有海量视频数据,根据数据的敏感程度,一部分数据需要加密存储,一部分数据是明文存储,但均存在跨级或跨域共享需求。对于加密数据,由于受限于密钥管理系统的跨域访问限制及解密密钥的安全传输问题,需要先解密成明文后,才能共享。为保证原有加密或非密数据的共享安全,需要采用 ...
    本站小编 Free考研考试 2021-12-25
  • 基于三元组网络的单图三维模型检索*
    信息时代的到来为计算机硬件的发展提供了强大的助力,各种媒体数据如音频、视频、图像、三维数据等呈井喷式增长。如何对已获得的海量媒体数据进行智能分析,并设计快速有效的检索方法成为目前的热点问题。如今,三维模型被广泛应用于计算机辅助设计、影视动画、医疗诊断、自动驾驶[1-2]等众多领域,由于三维视角更贴近 ...
    本站小编 Free考研考试 2021-12-25
  • 双光谱智能体温检测与健康大数据管理系统*
    公共安全视频监控是中国一项重要的基础设施建设,具有易于部署、信息捕获充分、接口和标准统一、可全时段运行等优点,对于建立社会治安防控体系具有重要意义,是维护国家安全和社会安定的重要手段[1]。近年来,面向图像分析和视频监控分析的深度学习技术和大数据挖掘技术取得了很多突破性进展,同时也推动了公共安全视频 ...
    本站小编 Free考研考试 2021-12-25
  • 基于MobileFaceNet网络改进的人脸识别方法*
    人脸特征具有易获取、易捕捉、易处理以及非接触式等特性,已经受到****们的广泛关注,并在公共安全等领域应用日趋广泛。但是,在实际的应用场景下,人脸识别精度依然受到不同的姿态、光照、遮挡等因素的影响。因此,如何提取更具鲁棒性的特征来有效地辨识人脸便成为解决问题的关键。传统的人脸识别方法主要有主成分分析 ...
    本站小编 Free考研考试 2021-12-25
  • 基于跨尺度特征聚合网络的多尺度行人检测*
    随着人工智能与计算机视觉技术的发展以及人们对公共安全领域的日益重视,智能视频监控技术已经发展为当前的研究热点。行人检测是智能化视频监控系统中的核心关键技术之一,并为后续的更高层次的视频分析与理解提供可靠的数据支持。因此,行人检测技术直接影响着智能视频监控的智能化水平,具有重要的研究意义和应用价值。近 ...
    本站小编 Free考研考试 2021-12-25
  • 数据丢包和量化约束下的分布式滚动时域估计*
    计算机和通信技术的日趋成熟促进了网络化系统的快速发展。凭借其结构灵活、可扩展性强、运行成本低等优势,网络化系统被广泛应用于目标跟踪、组网导航、智能交通、工业控制等多个领域[1-4]。网络化系统在带来诸多便利的同时,也带来了新的问题和挑战:数据通过网络传输时,由于通信故障、网络拥塞等因素的存在,不可避 ...
    本站小编 Free考研考试 2021-12-25
  • 基于高分辨率网络的单声道歌声分离*
    单声道歌声分离是指从单声道歌曲中分离出伴奏和歌声,是乐器识别、旋律提取、歌词识别、音高估计等课题的基础[1],作为音乐信息检索领域的一个重要研究课题,近年来得到广泛关注。目前,深度学习在计算机视觉领域取得很大进展,歌声分离算法也逐步利用深度学习技术分离伴奏和歌声,并展现出比矩阵分解、音高估计等方法更 ...
    本站小编 Free考研考试 2021-12-25
  • 基于EDT的扫描测试压缩电路优化方法*
    可测试性设计(DFT)技术是解决超大规模集成电路测试的有效途径,随着芯片规模越来越大,测试数据容量和测试时间也会不断增加,自动测试仪(ATE)需要提供更多的测试内存和测试端口,增加了芯片的测试难度。扫描测试的压缩设计通过在电路中加入测试压缩逻辑,使用较少的测试端口实现了测试激励解压缩和测试响应压缩, ...
    本站小编 Free考研考试 2021-12-25
  • 一种可变锚框候选区域网络的目标检测方法*
    随着计算机科学和认知神经科学的不断发展,人们想要研发以及开发能够模拟、延伸和扩展人类智能的理论、方法、技术以及应用系统,自此人工智能这一技术科学诞生。模式识别、机器学习和深度学习等理论的不断完善和发展,使得计算机视觉在社会各种领域应用广泛,例如交通、医学、农业等领域都取得了明显的成果。随着计算机视觉 ...
    本站小编 Free考研考试 2021-12-25
  • 一种鲁棒性增强的机载网络流量分类方法*
    机载网络作为航空集群等新型作战系统的信息交互纽带[1-2],通过为多样化业务流提供传输服务,可以保证平台间高效协同地执行作战任务[3-4]。在复杂多变的战场环境下,不同类型的业务流往往具有不同的信息价值及服务质量(QualityofService,QoS)需求[5]。同时,由于机载网络具有网络拓扑高 ...
    本站小编 Free考研考试 2021-12-25