多模态与文本预训练模型的文本嵌入差异研究
孙宇冲1, 程曦苇2, 宋睿华1,3,?, 车万翔4, 卢志武1,3, 文继荣1,31. 中国人民大学高瓴人工智能学院, 北京 1008722. 中国人民大学统计学院, 北京 1008723. 北京智源人工智能研究院, 北京 1000844. 哈尔滨工业大学计算学部, 哈尔滨 150001
收稿日期:
2022-05-13修回日期:
2022-08-18出版日期:
2023-01-20发布日期:
2023-01-20通讯作者:
宋睿华, 通信作者, E-mail: rsong(at)ruc.edu.cn 基金资助:
北京高校卓越青年科学家计划(BJJWZYJH012019100020098)资助Difference between Multi-modal vs. Text Pre-trainedModels in Embedding Text
SUN Yuchong1, CHENG Xiwei2, SONG Ruihua1,3,?, CHE Wanxiang4, LU Zhiwu1,3, WEN Jirong1,31. Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 1008722. School of Statistics, Renmin University of China, Beijing 1008723. Beijing Academy of Artificial Intelligence, Beijing 1000844. Faculty of Computing, Harbin Institute of Technology, Harbin 150001
Received:
2022-05-13Revised:
2022-08-18Online:
2023-01-20Published:
2023-01-20Contact:
SONG Ruihua, 通信作者, E-mail: rsong(at)ruc.edu.cn 摘要/Abstract
摘要: 为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异, 提出两种定量比较方法, 即在任一空间中, 使用距离一个词最近的k近邻词集合表示其语义, 进而通过集合间的Jaccard相似度来分析两个空间中词的语义变化; 将每个词与其k近邻词组成词对, 分析词对之间的关系。实验结果表明, 图文多模态预训练为更抽象的词(如成功和爱情等)带来更多的语义变化, 可以更好地区分反义词, 发现更多的上下义词, 而文本单模态预训练模型更擅长发现同义词。另外, 图文多模态预训练模型能够建立更广泛的词之间的相关关系。
引用本文
孙宇冲, 程曦苇, 宋睿华, 车万翔, 卢志武, 文继荣. 多模态与文本预训练模型的文本嵌入差异研究[J]. 北京大学学报自然科学版, 2023, 59(1): 48-56.
SUN Yuchong, CHENG Xiwei, SONG Ruihua, CHE Wanxiang, LU Zhiwu, WEN Jirong. Difference between Multi-modal vs. Text Pre-trainedModels in Embedding Text[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(1): 48-56.
PDF全文下载地址:
http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3826