删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

引入图像信息的多模态复述生成模型

本站小编 Free考研考试/2022-11-27

引入图像信息的多模态复述生成模型

马超, 万璋, 张玉洁?, 徐金安, 陈钰枫
北京交通大学计算机与信息技术学院, 北京 100044

收稿日期:2021-06-09修回日期:2021-08-17出版日期:2022-01-20

基金资助:国家自然科学基金(61876198, 61976015, 61976016)资助

Multi-modality Paraphrase Generation Model Integrating Image Information

MA Chao, WAN Zhang, ZHANG Yujie?, XU Jin’an, CHEN Yufeng
School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044

Received:2021-06-09Revised:2021-08-17Published:2022-01-20






摘要/Abstract


摘要: 在商品描述、新闻评论等多模态场景下, 已有复述生成模型只能围绕文本信息生成复述。为了解决其因无法利用图像信息而导致的语义丢失问题, 提出多模态复述生成模型(multi-modality paraphrase generation model, MPG)来引入图像信息, 并用其生成复述。在MPG中, 为了引入与原句对应的图像信息, 首先根据原句构建抽象场景图, 并将与原句相关联的图像区域特征转换为场景图的结点特征。进一步地, 为了利用构建好的场景图来生成语义一致的复述句, 使用关系图卷积神经网络和基于图的注意力机制对图结点特征进行编码和解码。在评测阶段, 提出句对相似度计算方法, 从MSCOCO数据集中筛选出描述图像中相同物体的句对, 并将其作为复述测试集进行评测。实验结果显示, 所提出的MPG模型生成的复述拥有更好的语义忠实度, 表明在多模态场景下图像信息的引入对提高复述生成质量的有效性。

引用本文



马超, 万璋, 张玉洁, 徐金安, 陈钰枫. 引入图像信息的多模态复述生成模型[J]. 北京大学学报自然科学版, 2022, 58(1): 45-53.
MA Chao, WAN Zhang, ZHANG Yujie, XU Jin’an, CHEN Yufeng. Multi-modality Paraphrase Generation Model Integrating Image Information[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(1): 45-53.





PDF全文下载地址:

http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3697
相关话题/

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19