图像描述生成研究进展

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-01-01

李志欣¹,魏海洋¹,张灿龙¹,马慧芳²,史忠植³

¹（广西多源信息挖掘与安全重点实验室(广西师范大学) 广西桂林 541004）；²（西北师范大学计算机科学与工程学院兰州 730070）；³（中国科学院智能信息处理重点实验室(中国科学院计算技术研究所) 北京 100190) (lizx@gxnu.edu.cn)

出版日期: 2021-09-01

基金资助:国家自然科学基金项目(61966004,61663004,61866004,61762078)；广西自然科学基金项目(2019GXNSFDA245018,2018GXNSFDA281009,2017GXNSFAA198365)

Research Progress on Image Captioning

Li Zhixin¹, Wei Haiyang¹, Zhang Canlong¹, Ma Huifang², Shi Zhongzhi³

¹（Guangxi Key Laboratory of Multi-Source Information Mining and Security (Guangxi Normal University), Guilin, Guangxi 541004);²(College of Computer Science and Engineering, Northwest Normal University, Lanzhou 730070);³(Key Laboratory of Intelligent Information Processing (Institute of Computing Technology, Chinese Academy of Sciences), Chinese Academy of Sciences, Beijing 100190)

Online: 2021-09-01

Supported by:This work was supported by the National Natural Science Foundation of China (61966004, 61663004, 61866004, 61762078) and the Guangxi Natural Science Foundation (2019GXNSFDA245018, 2018GXNSFDA281009, 2017GXNSFAA198365).

摘要/Abstract

摘要： 图像描述生成结合了计算机视觉和自然语言处理2个研究领域，不仅要求完备的图像语义理解，还要求复杂的自然语言表达，是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先，归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术，包括整体架构、学习策略、特征映射、语言模型和注意机制.然后，按照发展进程将现有的图像描述生成方法分为四大类，即基于模板的方法、基于检索的方法、基于编码器-解码器架构的方法和基于复合架构的方法，并阐述了各类方法的基本概念、代表性方法和研究现状，重点讨论了基于编码器-解码器架构的各种方法及其创新思路，如多模态空间、视觉空间、语义空间、注意机制、模型优化等.接着，从实验的角度给出图像描述生成的常用数据集和评估措施，并在2个基准数据集上比较了一些典型方法的性能.最后，以提升图像描述的准确性、完整性、新颖性、多样性为依据，展示了图像描述生成的未来发展趋势.

参考文献

相关文章 15

[1]	王磊, 熊于宁, 李云鹏, 刘媛媛. 一种基于增强图卷积神经网络的协同推荐模型[J]. 计算机研究与发展, 2021, 58(9): 1987-1996.
[2]	吴欣欣, 欧焱, 李文明, 王达, 张浩, 范东睿. 基于粗粒度数据流架构的稀疏卷积神经网络加速[J]. 计算机研究与发展, 2021, 58(7): 1504-1517.
[3]	刘雁孝, 吴萍, 孙钦东. 基于区域卷积神经网络的图像秘密共享方案[J]. 计算机研究与发展, 2021, 58(5): 1065-1074.
[4]	李腾, 乔伟, 张嘉伟, 高怿旸, 王申奥, 沈玉龙, 马建峰. 隐私保护的基于图卷积神经网络的攻击溯源方法[J]. 计算机研究与发展, 2021, 58(5): 1006-1020.
[5]	李若南, 李金宝. 一种无源被动室内区域定位方法的研究[J]. 计算机研究与发展, 2020, 57(7): 1381-1392.
[6]	邢新颖, 冀俊忠, 姚垚. 基于自适应多任务卷积神经网络的脑网络分类方法[J]. 计算机研究与发展, 2020, 57(7): 1449-1459.
[7]	于海涛, 杨小汕, 徐常胜. 基于多模态输入的对抗式视频生成方法[J]. 计算机研究与发展, 2020, 57(7): 1522-1530.
[8]	卢海峰, 顾春华, 罗飞, 丁炜超, 杨婷, 郑帅. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020, 57(7): 1539-1554.
[9]	王庆林, 李东升, 梅松竹, 赖志权, 窦勇. 面向飞腾多核处理器的Winograd快速卷积算法优化[J]. 计算机研究与发展, 2020, 57(6): 1140-1151.
[10]	刘烨, 黄金筱, 马于涛. 基于混合神经网络和注意力机制的软件缺陷自动分派方法[J]. 计算机研究与发展, 2020, 57(3): 461-473.
[11]	杜鹏, 丁世飞. 基于混合词向量深度学习模型的DGA域名检测方法[J]. 计算机研究与发展, 2020, 57(2): 433-446.
[12]	朱兆坤, 李金宝. 多特征信息融合LSTM-RNN检测OSA方法[J]. 计算机研究与发展, 2020, 57(12): 2547-2555.
[13]	程艳, 尧磊波, 张光河, 唐天伟, 项国雄, 陈豪迈, 冯悦, 蔡壮. 基于注意力机制的多通道CNN和BiGRU的文本情感倾向性分析[J]. 计算机研究与发展, 2020, 57(12): 2583-2595.
[14]	刘奇旭, 刘心宇, 罗成, 王君楠, 陈浪平, 刘嘉熹. 基于双向循环神经网络的安卓浏览器指纹识别方法[J]. 计算机研究与发展, 2020, 57(11): 2294-2311.
[15]	贺周雨, 冯旭鹏, 刘利军, 黄青松. 面向大规模图像检索的深度强相关散列学习方法[J]. 计算机研究与发展, 2020, 57(11): 2375-2388.

PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4494