全卷积神经结构的段落式图像描述算法
李睿凡1,2, 梁昊雨1, 冯方向1, 张光卫2,3, 王小捷1,21. 北京邮电大学 计算机学院, 北京 100876;
2. 教育部信息网络工程研究中心, 北京 100876;
3. 北京邮电大学 网络技术研究院, 北京 100876
收稿日期:
2019-04-14出版日期:
2019-12-28发布日期:
2019-11-15作者简介:
李睿凡(1975-),男,副教授,E-mail:rfli@bupt.edu.cn.基金资助:
国家重点研发计划项目(2019YFF0303302);国家自然科学基金项目(61906018);国家电网公司总部科技项目(5200-201918255A-0-0-00)Paragraph Image Captioning with Deep Fully Convolutional Neural Networks
LI Rui-fan1,2, LIANG Hao-yu1, FENG Fang-xiang1, ZHANG Guang-wei2,3, WANG Xiao-jie1,21. School of Computer Science, Beijing University of Posts and Telecommunications, Beijing 100876, China;
2. Engineering Research Center of Information Networks, Ministry of Education, Beijing 100876, China;
3. Institute of Network Technology, Beijing University of Posts and Telecommunications, Beijing 100876, China
Received:
2019-04-14Online:
2019-12-28Published:
2019-11-15摘要/Abstract
摘要: 针对段落式图像描述生成研究中提升描述语句之间的连贯性问题,提出了一种基于全卷积结构的图像段落描述算法.采用基于卷积网络的区域检测器获取图像表示,结合段落在语言学角度的层次性,构建一种层次性的深度卷积解码器对图像表示解码,自动生成段落式文本描述.同时将门控机制嵌入卷积解码器网络中,以提升模型的记忆能力.实验结果表明,相比于基于循环神经网络等传统段落图像的描述方法,新算法能够为图像生成更为连贯的段落式文本描述,在评测指标上取得较好的结果.
中图分类号:
TN309.2
引用本文
李睿凡, 梁昊雨, 冯方向, 张光卫, 王小捷. 全卷积神经结构的段落式图像描述算法[J]. 北京邮电大学学报, 2019, 42(6): 155-161.
LI Rui-fan, LIANG Hao-yu, FENG Fang-xiang, ZHANG Guang-wei, WANG Xiao-jie. Paragraph Image Captioning with Deep Fully Convolutional Neural Networks[J]. JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOM, 2019, 42(6): 155-161.
PDF全文下载地址:
https://journal.bupt.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4601