基于类激活映射-注意力机制的图像描述方法
廖南星1,周世斌1*,张国鹏1,程德强21. 中国矿业大学计算机科学与技术学院, 江苏 徐州 221116;2. 中国矿业大学孙越崎学院, 江苏 徐州 221116
发布日期:
2020-08-13作者简介:
廖南星(1995— ),女,贵州铜仁人,硕士研究生,主要研究方向为图像描述生成方法. E-mail:nxliao@cumt.edu.cn. *通信作者简介: 周世斌(1970— ),男,安徽六安人,讲师,博士,主要研究方向为机器学习,计算机视觉. E-mail:zhoushibin@cumt.edu.cn基金资助:
国家自然科学基金资助项目(61971421)Image caption generation method based on class activation mapping and attention mechanism
LIAO Nanxing1, ZHOU Shibin1*, ZHANG Guopeng1, CHENG Deqiang21. School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, Jiangsu, China;
2. Sun Yueqi Honors College, China University of Mining and Technology, Xuzhou 221116, Jiangsu, China
Published:
2020-08-13摘要/Abstract
摘要: 基于软注意力机制的图像描述算法,提出类激活映射-注意力机制的图像描述方法。利用类激活映射算法得到卷积特征包含定位以及更丰富的语义信息,使得卷积特征与图像描述具有更好的对应关系,解决卷积特征与图像描述的对齐问题,生成的自然语言描述能够尽可能完整的描述图像内容。选择双层长短时记忆网络改进注意力机制结构,使得新的注意力机制适合当前全局和局部信息的特征表示,能够选取合适的特征表示生成图像描述。试验结果表明,改进模型在诸多评价指标上优于软注意力机制等模型,其中在MSCOCO数据集上Bleu-4的评价指标相较于软注意力模型提高了16.8%。类激活映射机制可以解决图像空间信息与描述语义对齐的问题,使得生成的自然语言减少丢失关键信息,提高图像描述的准确性。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1953