基于点互信息的全局词向量模型
李万理1,唐婧尧1,薛云1,2*,胡晓晖1,张涛31.华南师范大学物理与电信工程学院, 广东 广州 510006;2.广东省数据科学工程技术研究中心, 广东 广州 510006;3.广东中建普联科技股份有限公司, 广东 广州 510640
发布日期:
2019-06-27作者简介:
李万理(1993— ),男,硕士研究生,研究方向为自然语言处理、情感分析、信息检索. E-mail: wanli.li@m.scnu.edu.cn*通信作者简介:薛云(1975— ),男,博士,教授,研究方向为自然语言处理、情感分析、个性化推荐. E-mail: xueyun@scnu.edu.cn基金资助:
全国统计科学研究资助项目(2016LY98);广东省科技计划资助项目(2016A010101020,2016A010101021,2016A010101022);深圳市科创委基础研究资助项目(JCYJ20160527172144272);广东省数据科学工程技术研究中心课题(2016KF09,2016KFl0);广东科学技术职业学院科研项目(XJSC2016206);广州市科技计划资助项目(201802010033)A global word vector model based on pointwise mutual information
LI Wan-li1, TANG Jing-yao1, XUE Yun1,2*, HU Xiao-hui1, ZHANG Tao31. School of Physics and Telecommunication Engineering, South China Normal University, Guangzhou 510006, Guangdong, China;
2. Guangdong Provincial Engineering Technology Research Center for Data Science, Guangzhou 510006, Guangdong, China;
3. Guangdong CON-COM Technology CO., LTD, Guangzhou 510640, Guangdong, China
Published:
2019-06-27摘要/Abstract
摘要: 提出了一种基于点互信息的全局词向量训练模型。该模型为了避免GloVe词向量模型中使用条件概率刻画词语关系时所产生的缺点,使用了另一种相关信息——联合概率与边际概率乘积的比值——来刻画词语间的关系。为了验证模型的有效性,在相同条件下,利用GloVe模型和我们的模型训练词向量,然后使用这2种词向量分别进行了word analogy以及similarity的实验。实验表明,模型的准确率在word analogy的Semantic问题中比GloVe模型表现更好,分别在100维、200维、300维的词向量实验中,准确率提升了10.50%、4.43%、1.02%,而在similarity的实验中,模型准确率提升也达5%~6%。结果表明,模型可以更有效地捕捉词语的语义。
PDF全文下载地址:
http://lxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3118