融合物体空间关系机制的图像摘要生成方法
万璋, 张玉洁?, 刘明童, 徐金安, 陈钰枫 北京交通大学计算机与信息技术学院, 北京 100044收稿日期:
2020-06-09修回日期:
2020-08-14出版日期:
2021-01-20基金资助:
国家自然科学基金(61876198, 61976015, 61976016)资助Object Space Relation Mechanism Fused Image Caption Method
WAN Zhang, ZHANG Yujie?, LIU Mingtong, XU Jin’an, CHEN Yufeng School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044Received:
2020-06-09Revised:
2020-08-14Published:
2021-01-20可视化
0复制本文网址
1. 探讨2016版国际胰瘘研究小组定义和分级系统对胰腺术后患者胰瘘分级的影响.PDF(500KB)
-->
摘要/Abstract
摘要: 聚焦于图像中物体间位置关系这一特定信息, 提出一种融合空间关系机制的神经网络图像摘要生成模型, 以期为视觉问答和语音导航等下游任务提供物体方位或轨迹等关键信息。为了增强图像编码器的物体间位置关系学习能力, 通过改进Transformer结构来引入几何注意力机制, 显式地将物体间位置关系融合进物体外观信息中。为了辅助完成面向特定信息的抽取和摘要生成任务, 进一步提出相对位置关系的数据制作方法, 并基于SpatialSense数据集制作物体间位置关系的图像摘要数据集Re-Position。与5个典型模型的对比测评实验结果表明, 所提模型的5个指标在公开测试集COCO上优于其他模型, 全部6个指标在本文制作的Re-Position数据集上优于其他模型。
引用本文
万璋, 张玉洁, 刘明童, 徐金安, 陈钰枫. 融合物体空间关系机制的图像摘要生成方法[J]. 北京大学学报自然科学版, 2021, 57(1): 75-82.
WAN Zhang, ZHANG Yujie, LIU Mingtong, XU Jin’an, CHEN Yufeng. Object Space Relation Mechanism Fused Image Caption Method[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2021, 57(1): 75-82.
PDF全文下载地址:
http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3570