摘要术语抽取从非结构化文本中自动抽取专业术语。该工作在中文分词、信息抽取、知识库构建中发挥着重要的作用。当前术语抽取方法很大程度上依赖于词的统计信息,由于基础教育学科中术语具有极强的长尾特性,导致基于统计的术语抽取方法很难抽取出处于尾端的术语。该文结合基础教育的学科特点,提出了DRTE: 一种利用术语定义与术语关系挖掘,综合构词规则与边界检测的术语抽取方法。该文以初高中的数学课本为数据源进行术语抽取,实验结果表明我们的术语抽取方法F1值达到82.7%,相比目前的方法提高了40.8%,能够有效地在中文基础教育领域进行自动化的术语抽取。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2539
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
DRTE:面向基础教育的术语抽取方法
本站小编 Free考研考试/2022-01-02
相关话题/中文 学科 综合 实验 统计
基于双向LSTM神经网络模型的中文分词
摘要中文分词是中文自然语言处理的基础。分词质量的好坏直接影响之后的自然语言处理任务。目前主流的分词是基于传统的机器学习模型。近年来,随着人工智能大潮的又一次兴起,长短期记忆(LSTM)神经网络模型改进了普通循环神经网络模型无法长期依赖信息的缺点,被广泛应用于自然语言处理的各种任务中,并取得了不错的效 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文微博热点事件情感分布的原因分析
摘要微博作为新兴的社交媒体平台,越来越多的网民选择在微博上获取与分享自己感兴趣的信息。在微博日均千万级的大数据面前,分析网民对某一事件的观点与态度是一件非常有意义的工作。调研中发现,大众对单个事件的不同话题存在不同的情感分布。针对这一现象,该文提出了使用无监督学习的层次聚类排序方法和半监督学习的微博 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于关联记忆网络的中文细粒度命名实体识别
摘要:细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文文本蕴含类型及语块识别方法研究
摘要:文本蕴含识别(RTE)是判断两个句子语义是否具有蕴含关系的任务.近年来英文蕴含识别研究取得了较大发展,但主要是以类型判断为主,在数据中精确定位蕴含语块的研究比较少,蕴含类型识别的解释性较低.从中文文本蕴含识别(CNLI)数据中挑选12000个中文蕴含句对,人工标注引起蕴含现象的语块,结合语块的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于动态分析的软件不变量综合技术
摘要:软件不变量是软件的重要属性,在软件验证、软件调试和软件测试等领域有重要作用.自20世纪末以来,基于动态分析的不变量综合技术成为相关领域的一个研究热点,并且取得了一定的进展.收集了90篇相关论文对该领域进行系统总结.基于动态分析的不变量综合技术是该领域的核心问题,提出了“学习者-预言”框架统一描 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于端到端句子级别的中文唇语识别研究
摘要:近年来,随着深度学习的广泛应用,唇语识别技术也取得了快速的发展.与传统的方法不同,在基于深度学习的唇语识别模型中,通常包含使用神经网络对图像进行特征提取和特征理解两个部分.根据中文唇语识别的特点,将识别过程划分为两个阶段——图片到拼音(P2P)以及拼音到汉字(P2CC)的识别.分别设计两个不同 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文软件问答社区主题分析研究
摘要:软件问答社区是软件开发者通过问答方式进行技术交流的网络平台.近年来,软件问答社区积累了大量用户讨论的技术问答内容.一些研究者对StackOverflow等英文问答社区进行主题分析研究,但是缺少对于中文软件问答社区的分析.通过对中文软件回答社区开展主题分析研究,不仅可以指导开发者更好地了解技术动 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于模糊综合评价的疲劳驾驶检测算法研究
摘要:疲劳驾驶是引发交通事故的一个主要原因,对驾驶员疲劳驾驶做出准确、有效的检测和预防,具有重要的社会意义.在研究比较了前人工作的基础上,设计了一种基于机器视觉,图像处理的驾驶员疲劳检测机制.首先将传来的连续帧图像(视频)利用Adaboost算法进行人脸检测,根据人脸"三庭五眼"的分布特征分割出大致 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文非功能需求描述的识别与分类方法研究
摘要:非功能需求描述系统质量相关的属性,是软件设计决策的重要依据和评估标准.与功能需求的描述相比,非功能需求描述通常比较分散,且往往是隐含的.当采集到的需求原始描述内容较多时,逐一进行人工判别和整理需要耗费大量的时间和精力.针对中文自然语言描述的需求文本,提出了自动化的非功能需求识别和分类方法.其中 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向中文文本倾向性分类的对抗样本生成方法
摘要:研究表明,在深度神经网络(DNN)的输入中添加小的扰动信息,能够使得DNN出现误判,这种攻击被称为对抗样本攻击.而对抗样本攻击也存在于基于DNN的中文文本的情感倾向性检测中,因此提出了一种面向中文文本的对抗样本生成方法WordHanding.该方法设计了新的词语重要性计算算法,并用同音词替换以 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02