基于高斯分布和汉字组件特征的中文词表示学习
易洁,钟茂生*,刘根,王明文江西师范大学计算机信息工程学院, 江西 南昌 330022
发布日期:
2021-05-13作者简介:
易洁(1998— ),女,硕士研究生,研究方向为自然语言处理. E-mail:jyi@jxnu.edu.cn*通信作者简介:钟茂生(1974— ),男,教授,博士,研究方向为自然语言处理. E-mail:zhongmaosheng@sina.com基金资助:
国家自然科学基金资助项目(61877031,61876074)Chinese word representation learning based on Gaussian distribution and Chinese character component characteristics
YI Jie, ZHONG Mao-sheng*, LIU Gen, WANG Ming-wenComputer and Information Engineering College, Jiangxi Normal University, Nanchang 330022, Jiangxi, China
Published:
2021-05-13摘要/Abstract
摘要: 使用一种基于密度的分布式嵌入式表示,并给出一种学习高斯分布空间表示的方法,以更好地捕获关于表示及其关系的不确定性,比点积余弦相似度更自然地表达词语的不对称性;同时,针对中文汉字本身特点,将组成汉字的组件即子汉字的语义信息加入词表示训练。与现有方法对比,该文的模型性能在词语相似度或下游任务等方面有更好的效果,且能更好地表达词语的不确定性。
PDF全文下载地址:
http://lxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3449