1(广西多源信息挖掘与安全重点实验室(广西师范大学) 广西桂林 541004);2(西北师范大学计算机科学与工程学院 兰州 730070);3(中国科学院智能信息处理重点实验室(中国科学院计算技术研究所) 北京 100190) (lizx@gxnu.edu.cn)
出版日期:
2021-09-01基金资助:
国家自然科学基金项目(61966004,61663004,61866004,61762078);广西自然科学基金项目(2019GXNSFDA245018,2018GXNSFDA281009,2017GXNSFAA198365)Research Progress on Image Captioning
Li Zhixin1, Wei Haiyang1, Zhang Canlong1, Ma Huifang2, Shi Zhongzhi31(Guangxi Key Laboratory of Multi-Source Information Mining and Security (Guangxi Normal University), Guilin, Guangxi 541004);2(College of Computer Science and Engineering, Northwest Normal University, Lanzhou 730070);3(Key Laboratory of Intelligent Information Processing (Institute of Computing Technology, Chinese Academy of Sciences), Chinese Academy of Sciences, Beijing 100190)
Online:
2021-09-01Supported by:
This work was supported by the National Natural Science Foundation of China (61966004, 61663004, 61866004, 61762078) and the Guangxi Natural Science Foundation (2019GXNSFDA245018, 2018GXNSFDA281009, 2017GXNSFAA198365).摘要/Abstract
摘要: 图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,按照发展进程将现有的图像描述生成方法分为四大类,即基于模板的方法、基于检索的方法、基于编码器-解码器架构的方法和基于复合架构的方法,并阐述了各类方法的基本概念、代表性方法和研究现状,重点讨论了基于编码器-解码器架构的各种方法及其创新思路,如多模态空间、视觉空间、语义空间、注意机制、模型优化等.接着,从实验的角度给出图像描述生成的常用数据集和评估措施,并在2个基准数据集上比较了一些典型方法的性能.最后,以提升图像描述的准确性、完整性、新颖性、多样性为依据,展示了图像描述生成的未来发展趋势.
参考文献
相关文章 15
[1] | 王磊, 熊于宁, 李云鹏, 刘媛媛. 一种基于增强图卷积神经网络的协同推荐模型[J]. 计算机研究与发展, 2021, 58(9): 1987-1996. |
[2] | 吴欣欣, 欧焱, 李文明, 王达, 张浩, 范东睿. 基于粗粒度数据流架构的稀疏卷积神经网络加速[J]. 计算机研究与发展, 2021, 58(7): 1504-1517. |
[3] | 刘雁孝, 吴萍, 孙钦东. 基于区域卷积神经网络的图像秘密共享方案[J]. 计算机研究与发展, 2021, 58(5): 1065-1074. |
[4] | 李腾, 乔伟, 张嘉伟, 高怿旸, 王申奥, 沈玉龙, 马建峰. 隐私保护的基于图卷积神经网络的攻击溯源方法[J]. 计算机研究与发展, 2021, 58(5): 1006-1020. |
[5] | 李若南, 李金宝. 一种无源被动室内区域定位方法的研究[J]. 计算机研究与发展, 2020, 57(7): 1381-1392. |
[6] | 邢新颖, 冀俊忠, 姚垚. 基于自适应多任务卷积神经网络的脑网络分类方法[J]. 计算机研究与发展, 2020, 57(7): 1449-1459. |
[7] | 于海涛, 杨小汕, 徐常胜. 基于多模态输入的对抗式视频生成方法[J]. 计算机研究与发展, 2020, 57(7): 1522-1530. |
[8] | 卢海峰, 顾春华, 罗飞, 丁炜超, 杨婷, 郑帅. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020, 57(7): 1539-1554. |
[9] | 王庆林, 李东升, 梅松竹, 赖志权, 窦勇. 面向飞腾多核处理器的Winograd快速卷积算法优化[J]. 计算机研究与发展, 2020, 57(6): 1140-1151. |
[10] | 刘烨, 黄金筱, 马于涛. 基于混合神经网络和注意力机制的软件缺陷自动分派方法[J]. 计算机研究与发展, 2020, 57(3): 461-473. |
[11] | 杜鹏, 丁世飞. 基于混合词向量深度学习模型的DGA域名检测方法[J]. 计算机研究与发展, 2020, 57(2): 433-446. |
[12] | 朱兆坤, 李金宝. 多特征信息融合LSTM-RNN检测OSA方法[J]. 计算机研究与发展, 2020, 57(12): 2547-2555. |
[13] | 程艳, 尧磊波, 张光河, 唐天伟, 项国雄, 陈豪迈, 冯悦, 蔡壮. 基于注意力机制的多通道CNN和BiGRU的文本情感倾向性分析[J]. 计算机研究与发展, 2020, 57(12): 2583-2595. |
[14] | 刘奇旭, 刘心宇, 罗成, 王君楠, 陈浪平, 刘嘉熹. 基于双向循环神经网络的安卓浏览器指纹识别方法[J]. 计算机研究与发展, 2020, 57(11): 2294-2311. |
[15] | 贺周雨, 冯旭鹏, 刘利军, 黄青松. 面向大规模图像检索的深度强相关散列学习方法[J]. 计算机研究与发展, 2020, 57(11): 2375-2388. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4494