基于点互信息的全局词向量模型

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-02-06

基于点互信息的全局词向量模型

李万理¹,唐婧尧¹,薛云^1,2*,胡晓晖¹,张涛³

1.华南师范大学物理与电信工程学院, 广东广州 510006;2.广东省数据科学工程技术研究中心, 广东广州 510006;3.广东中建普联科技股份有限公司, 广东广州 510640

发布日期:2019-06-27

作者简介:李万理(1993— ),男,硕士研究生,研究方向为自然语言处理、情感分析、信息检索. E-mail: wanli.li@m.scnu.edu.cn*通信作者简介:薛云(1975— ),男,博士,教授,研究方向为自然语言处理、情感分析、个性化推荐. E-mail: xueyun@scnu.edu.cn
基金资助:全国统计科学研究资助项目(2016LY98);广东省科技计划资助项目(2016A010101020,2016A010101021,2016A010101022);深圳市科创委基础研究资助项目(JCYJ20160527172144272);广东省数据科学工程技术研究中心课题(2016KF09,2016KFl0);广东科学技术职业学院科研项目(XJSC2016206);广州市科技计划资助项目(201802010033)

A global word vector model based on pointwise mutual information

LI Wan-li¹, TANG Jing-yao¹, XUE Yun^1,2*, HU Xiao-hui¹, ZHANG Tao³

1. School of Physics and Telecommunication Engineering, South China Normal University, Guangzhou 510006, Guangdong, China;
2. Guangdong Provincial Engineering Technology Research Center for Data Science, Guangzhou 510006, Guangdong, China;
3. Guangdong CON-COM Technology CO., LTD, Guangzhou 510640, Guangdong, China

Published:2019-06-27

摘要/Abstract

摘要： 提出了一种基于点互信息的全局词向量训练模型。该模型为了避免GloVe词向量模型中使用条件概率刻画词语关系时所产生的缺点,使用了另一种相关信息——联合概率与边际概率乘积的比值——来刻画词语间的关系。为了验证模型的有效性,在相同条件下,利用GloVe模型和我们的模型训练词向量,然后使用这2种词向量分别进行了word analogy以及similarity的实验。实验表明,模型的准确率在word analogy的Semantic问题中比GloVe模型表现更好,分别在100维、200维、300维的词向量实验中,准确率提升了10.50%、4.43%、1.02%,而在similarity的实验中,模型准确率提升也达5%~6%。结果表明,模型可以更有效地捕捉词语的语义。

PDF全文下载地址:

http://lxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3118

相关话题/广东 实验 广州 概率 数据

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
多策略融合的微博数据获取技术研究
多策略融合的微博数据获取技术研究王培名1(),陈兴蜀1,2,王海舟2,王文贤3,()1.四川大学计算机(软件)学院，四川成都6100652.四川大学网络空间安全学院，四川成都6100653.四川大学网络空间安全研究院，四川成都610065收稿日期:2018-10-17出版日期:2019-05-20发 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
大数据结构-逻辑特征与大数据规律
大数据结构-逻辑特征与大数据规律史开泉山东大学数学学院,山东济南250100发布日期:2019-02-25作者简介:史开泉(1945—),男,教授,博士生导师,研究方向为数据智能系统理论与应用.E-mail:shikq@sdu.edu.cn基金资助:山东省自然科学基金资助项目(zr2013aq019 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
数据分离与属性状态特征
数据分离与属性状态特征郭华龙,张凌龙岩学院信息工程学院,福建龙岩364012收稿日期:2017-09-04出版日期:2017-12-20发布日期:2017-12-22作者简介:郭华龙(1977—),男,讲师,硕士,研究方向为软件工程、信息系统与系统识别.E-mail:ly_ghl@126.com基金 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
基于面板数据模型研究某企业员工血压水平的变化趋势及影响因素
基于面板数据模型研究某企业员工血压水平的变化趋势及影响因素罗潇1,戴翔2,贾存显1,宋华翠2,高莉洁1收稿日期:2021-07-07发布日期:2022-01-25通讯作者:高莉洁.E-mail:lijiegao@sdu.edu.cnChangingtrendandinfluencingfactors ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
广州市极端降水事件对不同特征人群登革热发病的影响
广州市极端降水事件对不同特征人群登革热发病的影响李传玺1,2,刘起勇2,3,马伟1,2发布日期:2021-12-29通讯作者:马伟.E-mail:weima@sdu.edu.cn基金资助:国家自然科学基金(82073615);传染病预防控制国家重点实验室自主研究课题(2018SKLID302)Eff ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
基于逆概率加权法的早期三阴性乳腺癌不同治疗方案的疗效评价
基于逆概率加权法的早期三阴性乳腺癌不同治疗方案的疗效评价王喆1,刘玉洁1,毛倩1,管佩霞1,包绮晗1,李承圣1,乔晓伟1,潘庆忠2,王素珍1出版日期:2021-08-10发布日期:2021-09-16通讯作者:王素珍.E-mail:wangsz@wfmc.edu.cn基金资助:国家自然科学基金(81 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
卵巢-附件影像报告和数据系统鉴别101例卵巢附件良恶性肿物的应用价值
卵巢-附件影像报告和数据系统鉴别101例卵巢附件良恶性肿物的应用价值王艺璇,李菲,胡蓉,王蓓发布日期:2021-04-30通讯作者:王蓓.E-mail:wangbei1224@126.com基金资助:山东省医药卫生科技发展计划项目(2015WS0232)Valueofovarian-adnexalr ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
基于TCGA数据库预测结肠癌预后基因及其临床应用价值
基于TCGA数据库预测结肠癌预后基因及其临床应用价值甄秋来1,2,吕欣然3,叶辉1,丁绪超3,柴小雪1,胡辛1,周明1,曹莉莉1,3出版日期:2021-01-10发布日期:2021-01-09通讯作者:曹莉莉.E-mail:cll@sdu.edu.cn基金资助:山东省重点研发计划(2019GSF10 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
利用数据库数据采用联合模型动态预测312例肝硬化患者预后的观察分析
利用数据库数据采用联合模型动态预测312例肝硬化患者预后的观察分析肖宇飞,冯佳宁,王晓璇,毛倩,石福艳,王素珍潍坊医学院公共卫生学院,山东潍坊261053出版日期:2020-09-10发布日期:2020-08-30通讯作者:石福艳.E-mail:shifuyan1@126.com;王素珍.E-mai ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
两种甲状腺超声数据报告系统诊断效能的比较
两种甲状腺超声数据报告系统诊断效能的比较肖娟1,肖强2,丛伟3,李婷4,丁守銮1,张媛1,邵纯纯1,吴梅4,刘佳宁3,贾红英11.山东大学第二医院基础医学研究所/循证医学中心,山东济南250033;2.山东大学公共卫生学院生物统计系,山东济南250012;3.山东大学第二医院甲状腺外科,山东济南25 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06