段群涛,
石松,
赵鹏
安徽大学计算机科学与技术学院 合肥 230601
基金项目:安徽省自然科学基金(1908085MF182),国家自然科学基金(61602004),安徽高校自然科学研究项目(KJ2019A0034)
详细信息
作者简介:刘政怡:女,1978年生,副教授,研究方向为计算机视觉
段群涛:女,1993年生,硕士生,研究方向为图像显著性检测
石松:男,1993年生,硕士生,研究方向为图像显著性检测
赵鹏:女,1976年生,副教授,研究方向为智能信息处理、机器学习
通讯作者:刘政怡 liuzywen@ahu.edu.cn
中图分类号:TP391.41计量
文章访问数:3814
HTML全文浏览量:1394
PDF下载量:126
被引次数:0
出版历程
收稿日期:2019-04-29
修回日期:2019-08-31
网络出版日期:2019-09-05
刊出日期:2020-06-04
RGB-D Image Saliency Detection Based on Multi-modal Feature-fused Supervision
Zhengyi LIU,,Quntao DUAN,
Song SHI,
Peng ZHAO
School of Computer Science and Technology, Anhui University, Hefei 230601, China
Funds:The Provincial Natural Science Foundation of Anhui (1908085MF182), The National Natural Science Foundation of China (61602004), The Anhui University Natural Science Research Project (KJ2019A0034)
摘要
摘要:RGB-D图像显著性检测是在一组成对的RGB和Depth图中识别出视觉上最显著突出的目标区域。已有的双流网络,同等对待多模态的RGB和Depth图像数据,在提取特征方面几乎一致。然而,低层的Depth特征存在较大噪声,不能很好地表征图像特征。因此,该文提出一种多模态特征融合监督的RGB-D图像显著性检测网络,通过两个独立流分别学习RGB和Depth数据,使用双流侧边监督模块分别获取网络各层基于RGB和Depth特征的显著图,然后采用多模态特征融合模块来融合后3层RGB和Depth高维信息生成高层显著预测结果。网络从第1层至第5层逐步生成RGB和Depth各模态特征,然后从第5层到第3层,利用高层指导低层的方式产生多模态融合特征,接着从第2层到第1层,利用第3层产生的融合特征去逐步地优化前两层的RGB特征,最终输出既包含RGB低层信息又融合RGB-D高层多模态信息的显著图。在3个公开数据集上的实验表明,该文所提网络因为使用了双流侧边监督模块和多模态特征融合模块,其性能优于目前主流的RGB-D显著性检测模型,具有较强的鲁棒性。
关键词:RGB-D显著性检测/
卷积神经网络/
多模态/
监督
Abstract:RGB-D saliency detection identifies the most visually attentive target areas in a pair of RGB and Depth images. Existing two-stream networks, which treat RGB and Depth data equally, are almost identical in feature extraction. As the lower layers Depth features with a lot of noise, it causes image features not be well characterized. Therefore, a multi-modal feature-fused supervision of RGB-D saliency detection network is proposed, RGB and Depth data are studied independently through two-stream , double-side supervision module is used respectively to obtain saliency maps of each layer, and then the multi-modal feature-fused module is used to later three layers of the fused RGB and Depth of higher dimensional information to generate saliency predicted results. Finally, the information of lower layers is fused to generate the ultimate saliency maps. Experiments on three open data sets show that the proposed network has better performance and stronger robustness than the current RGB-D saliency detection models.
Key words:RGB-D saliency detection/
Convolutional Neural Network(CNN)/
Multi-modal/
Supervision
PDF全文下载地址:
https://jeit.ac.cn/article/exportPdf?id=a9f0b6fc-536d-454c-8487-b31d64ba0c04