摘要该文结合词向量技术和传统统计量,提出了一种新的无监督新词识别方法。该方法利用传统统计量获得候选新词,然后采用多种策略训练得到词向量,利用词向量构建弱成词词串集合,并使用该集合从候选新词的内部构成和外部环境两个方面对其进行过滤。此外,该文人工标注了一万条微博的分词语料作为发展语料,用于分析传统统计量以及调整变量阈值。实验使用NLPCC2015面向微博的中文分词评测任务的训练语料作为最终的测试语料。实验表明,该文方法对二元新词进行识别的F值比基线系统提高了6.75%,比目前新词识别领域最佳方法之一Overlap Variety方法提高了4.9%。最终,在测试语料上对二元新词和三元新词识别的F值达到了56.2%。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2528
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
面向中文社交媒体语料的无监督新词识别研究
本站小编 Free考研考试/2022-01-02
相关话题/统计 测试 实验 系统 中文
基于表示学习的开放域中文知识推理
摘要知识库通常以网络的形式被组织起来,网络中每个节点代表实体,而每条连边则代表实体间的关系。为了利用这种网状知识库中的知识,往往需要设计专门的、复杂度较高的图算法。然而这些算法并不能很好适用于知识推理,尤其是随着知识库的知识规模不断扩大,基于网状结构知识库的推理很难较好地满足实时计算的需求。该文使用 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于神经网络的片段级中文命名实体识别
摘要命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局部字符标记区分实体边界。为了减弱系统对人工特征设计的依赖,避免字符序列化标注方 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于Spark的大规模语义规则后向链推理系统
摘要近年来,语义网数据快速增长,适合于处理静态小规模语义数据的前向链语义推理技术暴露出了需对数据进行频繁更新等问题。面对大规模动态语义网数据,对数据更新不敏感的后向链语义推理开始成为新的研究热点。后向链语义推理由查询目标驱动,在查询时根据规则集推理出查询结果。后向链语义推理具有推理过程复杂、规则扩展 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于双向LSTM神经网络模型的中文分词
摘要中文分词是中文自然语言处理的基础。分词质量的好坏直接影响之后的自然语言处理任务。目前主流的分词是基于传统的机器学习模型。近年来,随着人工智能大潮的又一次兴起,长短期记忆(LSTM)神经网络模型改进了普通循环神经网络模型无法长期依赖信息的缺点,被广泛应用于自然语言处理的各种任务中,并取得了不错的效 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文微博热点事件情感分布的原因分析
摘要微博作为新兴的社交媒体平台,越来越多的网民选择在微博上获取与分享自己感兴趣的信息。在微博日均千万级的大数据面前,分析网民对某一事件的观点与态度是一件非常有意义的工作。调研中发现,大众对单个事件的不同话题存在不同的情感分布。针对这一现象,该文提出了使用无监督学习的层次聚类排序方法和半监督学习的微博 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02构建新型高性能与高可用的键值数据库系统
摘要:近年来,写密集型应用程序越来越普遍.如何有效地处理这种工作负载,是数据库系统领域深入研究的方向之一.写操作开销主要由以下两个方面的因素构成:(1)硬件级别,即写操作引起的I/O,目前无法在短时间内消除这种开销;(2)软件开销,即修改内存数据拷贝以及构造日志记录造成的多次写操作.日志即数据(lo ...中科院软件研究所 本站小编 Free考研考试 2022-01-02领域驱动设计模式的收益与挑战:系统综述
摘要:背景:近年来,领域驱动设计(domaindrivendesign,简称DDD)作为一种软件设计方法在业界中逐渐流行起来,并形成了若干应用的固有范式,即领域驱动设计模式(domaindrivendesignpattern,简称DDDP).然而,目前软件开发社区却仍然对DDDP在软件项目中的作用缺 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向关键字流图的相似程序间测试用例的重用
摘要:软件测试是软件开发中重要的一环,能有效地提高软件的可靠性和质量.而测试用例的重用可减少软件测试的工作量,提升测试的效率.提出一种面向关键字流图的相似程序间测试用例的重用方法,该方法将程序已经生成的测试数据重用到与之相似的程序中.可见,探究测试用例重用的前期工作是判定程序的相似性.对于程序相似性 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于日志挖掘的微服务测试集缩减技术
摘要:微服务系统每轮迭代过程中都需要进行回归测试,大量重复测试会造成资源浪费,可通过减少测试用例集的规模来降低成本,以提高测试效率.现有测试用例集缩减技术主要依赖系统规约和架构描述作为输入,对于具有服务自治、调用关系不确定等特点的微服务系统实用性受限.并且,现有测试用例集缩减技术很少考虑使用场景,测 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02国产复杂异构高性能数值软件的研制与测试专题前言
摘要:中国科学院首个C类战略性先导科技专项XDC01000000主要目标已经达到.在数值软件层面,该先导专项第1阶段的主要任务是在复杂异构先进计算系统上研制高水平的基准测试软件HPL(highperformanceLinpack)和HPCG(highperformanceconjugategradi ...中科院软件研究所 本站小编 Free考研考试 2022-01-02