删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

多模态与文本预训练模型的文本嵌入差异研究

本站小编 Free考研考试/2023-11-25

多模态与文本预训练模型的文本嵌入差异研究

孙宇冲1, 程曦苇2, 宋睿华1,3,?, 车万翔4, 卢志武1,3, 文继荣1,3
1. 中国人民大学高瓴人工智能学院, 北京 1008722. 中国人民大学统计学院, 北京 1008723. 北京智源人工智能研究院, 北京 1000844. 哈尔滨工业大学计算学部, 哈尔滨 150001
收稿日期:2022-05-13修回日期:2022-08-18出版日期:2023-01-20发布日期:2023-01-20
通讯作者:宋睿华, 通信作者, E-mail: rsong(at)ruc.edu.cn

基金资助:北京高校卓越青年科学家计划(BJJWZYJH012019100020098)资助

Difference between Multi-modal vs. Text Pre-trainedModels in Embedding Text

SUN Yuchong1, CHENG Xiwei2, SONG Ruihua1,3,?, CHE Wanxiang4, LU Zhiwu1,3, WEN Jirong1,3
1. Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 1008722. School of Statistics, Renmin University of China, Beijing 1008723. Beijing Academy of Artificial Intelligence, Beijing 1000844. Faculty of Computing, Harbin Institute of Technology, Harbin 150001
Received:2022-05-13Revised:2022-08-18Online:2023-01-20Published:2023-01-20
Contact:SONG Ruihua, 通信作者, E-mail: rsong(at)ruc.edu.cn






摘要/Abstract


摘要: 为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异, 提出两种定量比较方法, 即在任一空间中, 使用距离一个词最近的k近邻词集合表示其语义, 进而通过集合间的Jaccard相似度来分析两个空间中词的语义变化; 将每个词与其k近邻词组成词对, 分析词对之间的关系。实验结果表明, 图文多模态预训练为更抽象的词(如成功和爱情等)带来更多的语义变化, 可以更好地区分反义词, 发现更多的上下义词, 而文本单模态预训练模型更擅长发现同义词。另外, 图文多模态预训练模型能够建立更广泛的词之间的相关关系。

引用本文



孙宇冲, 程曦苇, 宋睿华, 车万翔, 卢志武, 文继荣. 多模态与文本预训练模型的文本嵌入差异研究[J]. 北京大学学报自然科学版, 2023, 59(1): 48-56.
SUN Yuchong, CHENG Xiwei, SONG Ruihua, CHE Wanxiang, LU Zhiwu, WEN Jirong. Difference between Multi-modal vs. Text Pre-trainedModels in Embedding Text[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(1): 48-56.





PDF全文下载地址:

http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3826
相关话题/

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19