删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

Web数据反馈的搭配抽取方法

本站小编 哈尔滨工业大学/2019-10-24

Web数据反馈的搭配抽取方法

林建方1, 牛成2, 李生1, 郑德权1

1.哈尔滨工业大学语言语音教育部-微软重点实验室;2.微软亚洲研究院



摘要:

为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性.

关键词:  搭配  共现频率  互信息  卡方检验  语料库  Web

DOI:10.11918/j.issn.0367-6234.2010.02.023

分类号:TP391.1

基金项目:国家自然科学基金重点资助项目(60736044);国家科技发展计划探索类资助项目(2006AA01Z150)



Automatic collocation extraction using web feedback data

LIN Jian-fang1, NIU Cheng2, LI Sheng1, ZHENG De-quan1

1.MOE-MS Key Laboratory of Natural Language Processing and Speech,Harbin Institute of Technology,Harbin 150001,China;2.Microsoft Research Asia,Beijing 100080,China)

Abstract:

To improve the precison of collocation extraction,this paper proposes a new method based on Internet data.For the constraint by the corpus scale for traditional collocation extraction approach based on linguistic corpus,we acquire collocations from Web,which contains plenty of information and knowledge.Three classical association measures of co-occurrence frequency,mutual information and χ2-test are used to automatically extract the collocation.Based on the experimental results,the benchmarks show that the performance of this new Web-based approach is superior to that of traditional approach in both precision and recall.Thus the data from Internet may be applied in many NLP applications.

Key words:  collocation  co-occurrence frequency  mutual information  χ2-test  corpora  web


相关话题/数据 统计 检验 互联网 信息

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 生物信息学方法筛选胶质母细胞瘤的核心基因
    生物信息学方法筛选胶质母细胞瘤的核心基因柯帅,王文波,廖红展,彭志柱,邱县生,唐慧敏,李清华,夏学巍(桂林医学院附属医院神经外科,广西桂林541000)摘要:多形性胶质母细胞瘤(GBM)是成人最常见的恶性神经上皮肿瘤,关于其诊断和治疗的靶点研究一直是困扰研究者的难题。采用生物信息学的方法对GBM的基 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • Hsa-miR-210-5p靶基因预测及其相关信号通路的生物信息学分析
    Hsa-miR-210-5p靶基因预测及其相关信号通路的生物信息学分析蔡丹平,龙鼎新(南华大学船山学院,湖南衡阳421001)摘要:为深入研究miR-210-5p的调控机制及生物学功能提供理论机制,应用生物信息学方法分析miR-210-5p序列,预测其靶基因,用Veney2.1.0绘制韦恩图得到靶基 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 基于问题导向的生物信息学综合实验教学设计
    基于问题导向的生物信息学综合实验教学设计霍颖异1,2,徐程2,吴敏1,2,陈铭2(1.浙江大学国家级生物实验教学示范中心,杭州310058;2.浙江大学生命科学学院,杭州310058)摘要:针对生物信息学相关课程的实验教学需求,结合前沿科研问题和成果,设计了基于问题导向的生物信息学综合实验。实验以宏 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 共词分析国内外生物信息学领域研究态势
    共词分析国内外生物信息学领域研究态势刘亚文,张红燕,阳灵燕(湖南农业大学信息与智能科学技术学院,长沙410128)摘要:生物信息学作为自然科学领域中多学科交叉的新兴学科,其发展研究得到了众多学者的关注。为了解生物信息学在国内外的研究态势,以CNKI中文数据库和Webofscience外文数据库中生物 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 生物信息学本科专业建设现状
    生物信息学本科专业建设现状邢永强1,2,刘国庆1,2,蔡禄1,2(1.内蒙古科技大学生命科学与技术学院,内蒙古包头014010;2.内蒙古自治区功能基因组生物信息学重点实验室,内蒙古包头014010)摘要:随着后基因组时代的到来,生物信息学逐渐进入了黄金发展期。生物信息学教育体系的建立和完善是永葆生 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 文本分析技术在蛋白质生物信息学中应用的案例综述
    文本分析技术在蛋白质生物信息学中应用的案例综述苏绍玉1,徐婧2,鄢仁祥2(1.福建省科学技术信息研究所,福州350003;2.福州大学生物科学与工程学院,福州350100)摘要:海量数据时代考察文本分析技术在生物信息学领域的应用具有重要的理论和现实价值。本文讨论了文本分析在蛋白质计算分析中的几个应用 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 边界数据浸入法在弱可压缩流动中的应用
    边界数据浸入法在弱可压缩流动中的应用赵体豪1,赵欣2(1.北京理工大学机械与车辆学院,北京100081;2.北京理工大学宇航学院,北京100081)摘要:受限于计算机的计算能力与计算的成本,实际的计算过程中,往往要对流体做出一些物理假设,如无粘流体、不可压缩流体等,但是这将给计算带来不同程度的误差. ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 分段自适应阈值小波的地铁塞拉门数据压缩方法
    分段自适应阈值小波的地铁塞拉门数据压缩方法李城汐,蒋启龙,陆凡,刘东(西南交通大学电气工程学院,成都610000)摘要:针对地铁塞拉门进行PHM应用诊断时产生海量数据的压缩问题,提出一种基于分段自适应阈值的小波压缩算法,通过原始数据的自适应分段和自动调节各段阈值放大系数,实现了兼顾精度和大压缩比的数 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 立交区域交叉口交通信息识别概率预测
    立交区域交叉口交通信息识别概率预测沈强儒1,杨少伟2,曹慧1,顾镇媛1,葛婷3(1.南通大学交通与土木工程学院,江苏南通,226019;2.长安大学公路学院,西安710064;3.苏州科技大学土木工程学院,江苏苏州215011)摘要:为预测立交区域交叉口交通信息识别概率,运用汽车动力学理论、驾驶员特 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 一种基于统计损伤本构关系的岩石脆性评价新方法
    一种基于统计损伤本构关系的岩石脆性评价新方法胡清波1,梁海安1,2,杨婷1,程新俊1,陈海康1,张龙鹏1(1.东华理工大学土木与建筑工程学院,南昌330013;2.核资源与环境国家重点实验室(东华理工大学),南昌330013)摘要:脆性评价对岩石(尤其是深部岩石)的可压裂、开挖损伤及岩爆等特性的研究 ...
    本站小编 哈尔滨工业大学 2020-12-05