摘要该文提出一种基于句法规则和HowNet词典的商品评论细粒度观点分析方法,主要包括三个模块:评价对象抽取、评价对象—评价词对抽取、评价对象总体观点得分计算。具体思路为:首先,结合词性标注和频繁项集方法构建一个初始的评价对象词典,便于重用和修正商品的总体评价维度;其次,基于爬取的电商评论文本真实数据 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要新闻与案件的相关性分析是法律领域新闻舆情分析的重要环节,可转化为新闻文本与案件文本的相似度计算任务。借助孪生网络计算文本相似度是一种有效途径,其对平衡样本具有良好的学习能力,但在新闻与案件的相关性计算中面临文本不平衡和新闻文本冗余的问题,因此,该文提出了基于非对称孪生网络的新闻与案件相关性计算方 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要大规模法律文书数据为智能司法审判研究提供了重要的数据基础。量刑预测是智能司法审判中的一个关键环节,对维护司法审判的公平与公正具有重要意义。该文首先基于区间划分和多模型投票方法进行了量刑预测初探,发现区间划分策略可以有效缓解刑期类别众多和数据不平衡问题;在此基础上,又采用基于量刑属性的预测方法来充 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要随着人们对互联网多语言信息需求的日益增长,跨语言词向量已成为一项重要的基础工具,并成功应用到机器翻译、信息检索、文本情感分析等自然语言处理领域。跨语言词向量是单语词向量的一种自然扩展,词的跨语言表示通过将不同的语言映射到一个共享的低维向量空间,在不同语言间进行知识转移,从而在多语言环境下对词义进 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要该文提出了一种基于成对比较的众包标注方法,该方法可以通过非专业人士的简单判断获取标准统一的句子难度标注结果。基于该方法,构建了基于语文教材的由18411个句子组成的汉语句子难度语料库。面向单句绝对难度评估和句对相对难度评估两项基本的句子难易度评估任务,使用机器学习方法训练汉语句子难度评估模型,并 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器—解码器神经机器翻译架构,提出一种改善蒙汉神经机器翻译结果的方法。首先将蒙古语和汉语的 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要关系抽取主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,其主要负责从文本中识别出实体,抽取实体间的语义关系。就关系抽取任务而言,当前流行的网络结构是仅使用CNN作为编码器,经过多层卷积操作后,对池化的结果进行softmax分类。还有部分工作则使用RNN并结合Attention机 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要针对传统真值发现算法无法直接应用于文本数据的问题,该文提出基于Bi-GRU并包含注意力机制的文本数据真值发现方法。根据文本答案的多因素性,词语使用的多样性与文本数据的稀疏性等特点,该文对用户答案进行细粒度划分,并利用Bi-GRU表征文本答案的语义信息,利用双层注意力机制分别学习用户答案关键词可靠 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要领域文本具有结构复杂、相似性高以及动态变化等特点,且存在着连续型与离散型并存的混合数据,这在一定程度上限制了知识发现方法对文本规则的挖掘效率。针对这一问题,该文提出了基于GMM与粗糙集的文本规则挖掘方法。该方法首先根据目标数据的属性类型构造信息表;然后利用高斯混合模型(GMM,GaussianM ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要针对文本匹配任务,该文提出一种大规模预训练模型融合外部语言知识库的方法。该方法在大规模预训练模型的基础上,通过生成基于WordNet的同义—反义词汇知识学习任务和词组—搭配知识学习任务引入外部语言学知识。进而,与MT-DNN多任务学习模型进行联合训练,以进一步提高模型性能。最后利用文本匹配标注数 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要基于注意力机制的神经网络模型在文本分类任务中显示出了很好的效果。然而当训练数据的规模有限,或者测试数据与训练数据的分布有较大差异时,一些有价值的信息词很难在训练中被模型捕捉到。为此,该文提出了一种新的基于协同注意力(co-attention)网络的领域分类方法。该文利用隐含主题模型学习隐含主题注 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要该文以阿里小蜜为例,对智能客服系统中的情感分析技术进行比较全面的介绍,包括情感分析算法模型的原理及其在智能客服系统的多个应用场景中的实际落地使用方式和效果分析。智能客服在解决客户高频业务问题的同时,也需要给客户提供多维度的、具有类人能力的助理、导购、语聊和娱乐等服务,提高客户对智能客服机器人的整 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要反问句是以疑问的形式表达强烈情感的修辞方式,对其有效识别可为自然语言处理中的情感分析任务提供技术支持。该文提出了一种基于语言特征自动获取的反问句识别方法。首先,利用标签注意机制,建立了一个数据驱动的特征抽取模型,用于获取与任务相关的词汇、句法结构、符号标记和话题等语言特征。其次,利用Bi-LST ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要基于无监督的文本情感迁移技术是通过迁移原句子情感并且保持句子内容不变,生成带有其他情感的新句子的技术。这项技术在两个方面富有挑战性:第一,没有平行语料;第二,文本属性纠缠问题,即当改变句子情感时,通常难以保证句子内容不变。该文提出了一个基于掩码自编码器(mask-autoEncoder,Mask ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要该文运用事件相关电位技术,观测汉语谐音双关语与语义双关语两者是否存在认知神经加工上的差异。结果发现,语义双关语的正确率明显低于谐音双关语以及不符合逻辑语篇的正确率。谐音双关语组、语义双关语组和不合逻辑语篇引发的脑电波数据在300~900ms之间存在显著差异。其中,语义双关语和不合逻辑语篇都引发了 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要该文从物性结构角度分析了“处所+N”复合词中处所成分与中心成分之间的语义关系,发现单纯表事物存在之处的很少,多表示事物使用或者产生的地方,或兼而有之。隐含的谓词是名词的功用角色或施成角色,这些谓词应该出现在释义中,以揭示构词成分间的具体语义关系,阐明事物的命名理据。目前有些词的释义尚不完备,缺乏 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要词组入句时发生语法性质转变,词组的句法范畴就应该转换,这种转换依赖词组作为整体进入更大词组的结构需要。要解释这种现象,组合范畴语法应该增加相应的转换规则。从集合论角度看,汉语有名词—动词—形容词依次包含关系,由此可归纳基本句法结构之间的转类套叠。在类有定职的前提下,得出转类套叠对应的范畴转换规则 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要真实对话数据量不足已经成为限制数据驱动的对话生成系统性能提升的主要因素,尤其是汉语语料。为了获得丰富的日常会话语料,可以利用字幕时间戳信息把英语电视剧的英文字幕及其对应的中文字幕进行同步,从而生成大量的汉英双语同步字幕。然后通过信息检索的方法把双语同步字幕的英文句子跟英语剧本的演员台词进行自动对 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要以法学知识为中心的认知智能是当前司法人工智能发展的重要方向。该文提出了以自然语言处理(NLP)为核心技术的司法案件案情知识图谱自动构建技术。以预训练模型为基础,对涉及的实体识别和关系抽取这两个NLP基本任务进行了模型研究与设计。针对实体识别任务,对比研究了两种基于预训练的实体识别模型;针对关系抽 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大。现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想。该文将乌兹别克语词干提取任务视为序列标注问题进行处理,以字符为最小单位进行切分,分别构建了基于条件随机场(CRF)和门控循环单元网络(Bi-G ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要目前,面向蒙古语的语音识别语音库资源相对稀缺,但存在较多的电视剧、广播等蒙古语音频和对应的文本。该文提出基于语音识别的蒙古语长音频语音文本自动对齐方法,实现蒙古语电视剧语音的自动标注,扩充了蒙古语语音库。在前端处理阶段,使用基于高斯混合模型的语音端点检测技术筛选并删除噪音段;在语音识别阶段,构建 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要机构名翻译是机器翻译的研究内容之一,在机器翻译任务中机构名翻译的准确度,直接影响着翻译性能。在很多任务上,神经机器翻译性能优于传统的统计机器翻译性能,该文中使用基于transformer神经网络模型与传统的基于短语的统计机器翻译模型和改进后的基于语块的机器翻译模型做了对比试验。实验结果表明,在汉 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的。其中,词干是有实际意义的词汇单元,词缀提供语法功能。该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短文本分类技术。用基于词-词素平行训练语料的稳健词素切分和词干提取方法,从互联网下载的文本中提取其词干,以此构建词干序列文本语料 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要基本篇章单元(elementarydiscourseunits,EDU)识别是构建篇章结构的基础,对篇章分析意义重大。从篇章衔接性视角来看,篇章话题结构理论认为,每个EDU都由要表达信息的起始点(主位)和传达的新信息(述位)两部分构成。因此,EDU识别与主述位识别任务的关系密切。基于此,该文给出 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要药物相互作用是指药物之间存在的抑制或促进等作用。针对目前药物关系抽取模型在长语句中抽取效果较差以及高层特征信息丢失的问题,该文提出了一种结合最短依存路径的胶囊网络关系抽取模型,该方法首先根据原语句解析出两个药物之间的最短依存路径,然后利用双向长短期记忆网络分别获取原语句和最短依存路径的低层语义表 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要歧义的存在使得实体链接任务需要大量信息的支撑。已有研究主要使用两类信息,即实体表述所在的文本信息和外部的知识库信息。但已有研究对信息的使用存在以下两个问题:首先,最新通用知识库规模更大、覆盖面更广,但目前的实体链接模型却未从中受益,其性能没有得到相应提升;其次,表述所在的文本信息既包含表述所处的 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要文档排序一直是信息检索(IR)领域的关键任务之一。受益于马尔科夫决策过程强大的建模能力,以及强化学习方法强大的求解能力,近年来基于强化学习的排序模型被提出并取得了良好效果。然而,由于候选文档中会包含大量的不相关文档,导致基于试错的强化学习方法存在效率低下的问题。为解决 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要对话情感分析旨在识别出一段对话中每个句子的情感倾向,其在电商客服数据分析中发挥着关键作用。不同于对单个句子的情感分析,对话中句子的情感倾向依赖于其在对话中的上下文。目前已有的方法主要采用循环神经网络和注意力机制建模句子之间的关系,但是忽略了对话作为一个整体所呈现的特点。建立在多任务学习的框架下, ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要关系抽取(RE)是为了抽取文本中包含的关系,是信息抽取(IE)的重要组成部分。近年来,研究人员利用深度学习技术在该领域开展了深入研究。由于神经网络类型丰富,基于深度学习的关系抽取方法也更加多样。该文从关系抽取的基本概念出发,对关系抽取方法依据不同的视角进行了类别划分。随后,介绍了基于深度学习的关 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要事件同指消解是自然语言处理中一个具有挑战性的任务,它在事件抽取、问答系统和阅读理解中具有重要作用。针对事件的语义信息主要由触发词和论元表示这一个特点,该文将事件进行结构化表示并输入一个基于门控和注意力机制的模型GAN-SR(gatedattentionnetworkwithstructuredr ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要为了实现多语种词对齐,该文提出一种以点互信息为基础的翻译概率作为改进的多语种单词关联强度度量方法。首先,论证了在服从Zipf定律的普通频级词区域,单词间关联强度的点互信息度量法可简化为翻译概率;其次,对汉语、英语、朝鲜语平行语料进行句子对齐、分词和去停用词等预处理后计算平行语料单词之间的翻译概率 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要近年来,神经机器翻译(neuralmachinetranslation,NMT)表现出极大的优越性,然而如何在翻译一个文档时考虑篇章上下文信息仍然是一个值得探讨的问题。传统的注意力机制对源端的所有词语进行计算,而在翻译当前句子时篇章中大量的信息中只有小部分是与之相关的。在篇章级机器翻译中,采用传 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Tran ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明,该方法能显著提 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要在神经机器翻译中,因词表受限导致的集外词问题很大程度上影响了翻译系统的准确性。对于训练语料较少的资源稀缺型语言的神经机器翻译,这种问题表现得更为严重。近几年,受到外部知识融入的启发,该文在RNNSearch模型基础上,提出了一种融入分类词典的汉越混合网络神经机器翻译集外词处理方法。对于给定的源语 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要句子是语言的最小使用单位,句类识别是为了进一步细化句法和句义研究。由于藏文句尾通常没有特殊的标点符号来识别不同句类,因此这一藏文语言特性就变成了一大难题。该文提出了基于语境和功能特征为一体的句子用途分类方案。首先,该文介绍了文法中藏文句子分类及其特征。其次,收集了大量藏文句子并对其进行了人工标注 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要该文针对藏文语料稀缺的问题,在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法,在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中,该文使用数据增强方法,有效利用目前公开的藏汉平行语料,扩充藏汉跨语言文本改写检测训练语料,当扩充至20万句对时,藏汉改写检测模型 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要对于越南语组块识别任务,在前期对越南语组块内部词性构成模式进行统计调查的基础上,该文针对Bi-LSTM+CRF模型提出了两种融入注意力机制的方法:一是在输入层融入注意力机制,从而使得模型能够灵活调整输入的词向量与词性特征向量各自的权重;二是在Bi-LSTM之上加入了多头注意力机制,从而使模型能够 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要随着移动应用的普及,微信公众号已经成为人们获取信息的重要来源之一。微信公众号排序是获取优质信息、节约信息管理成本的必要手段。现有的公众号排序方法主要是对总阅读数、总点赞数等量化指标进行人工经验赋权得到排序结果,忽略了文章内容对公众号选择的影响。该文在保留量化指标的基础上,提出了主题垂直性、发文稳 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要针对传统协同过滤算法难以学习深层次用户和项目的隐表示,以及对文本信息不能充分提取单词之间的前后语义关系的问题,该文提出一种融合辅助信息与注意力长短期记忆网络的协同过滤推荐模型。首先,附加堆叠降噪自编码器利用评分信息和用户辅助信息提取用户潜在向量;其次,基于注意力机制的长短期记忆网络利用项目辅助信 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要当前存在着大量的语言知识和情感资源,但在基于深度学习的情感分析研究中,这些特有的情感信息,没有在情感分析任务中得到充分利用。针对以上问题,该文提出了一种基于多通道双向长短期记忆网络的情感分析模型(multi-channelsbidirectionallongshorttermmemorynetw ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要为了发现先秦诸家学派之间的相关度,找出能够代表各学派主题特征的特征词,该文首次对诸家学派之间的相关关系作量化考察,对诸家思想的主题特征作统计分析。通过研究发现,儒家与道家之间的相关度最高,兵家与墨家之间的相关度最低,道家与其他各学派之间的相关系数的均值最大。该文还通过分析特定学派中各个词型与其他 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要机器翻译是指利用计算机将一种语言文本转换成具有相同语义的另一种语言文本的过程。它是人工智能领域的一项重要研究课题。近年来,随着深度学习研究和应用的快速发展,神经网络机器翻译成为机器翻译领域的重要发展方向。该文首先简要介绍近一年神经网络机器翻译在学术界和产业界的影响,然后对当前的神经网络机器翻译的 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要随着Web2.0的兴起以及移动互联网与智能终端的蓬勃发展,以微博为代表的社交媒体迅速发展壮大。基于社交媒体的事件脉络挖掘技术在突发事件检测、事件走势分析、舆情预测等诸多方面发挥着重要作用,受到学术界的广泛关注。该文在最新研究成果与文献的基础上,以事件脉络挖掘的实现为出发点,概括总结了核心步骤中存 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要汉语演变过程中,词语使用受时间影响的程度差异很大。这体现为词汇时间分布的不同。该文基于70年跨度历时语料库,使用TF-IDF方法对词汇的时间分布进行了统计,并尝试对词汇系统的时间分布层次进行划分。通过对历时文本分类性能、词类分布、词长分布、覆盖率和词语生命力五方面的考察和分析,建立了由基干层、过 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要目前,老挝语词性标注研究处于初期,可用标注语料有限,且老挝语吸收了多种外来词,导致标注语料库存在大量稀疏词。多任务学习是有效识别稀疏词的一种方法,该文研究了老挝词的结构特征,并构建了结合词性标注损失和主辅音辅助损失的多任务老挝语词性标注模型。老挝词有很多词缀可以表达词性信息,因此模型还采用了字符 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要传统词向量训练模型仅考虑词共现而未考虑词序,语义表达能力弱。此外,现有实体消歧方法没有考虑实体的局部特征。综合实体的全局特征和局部特征,该文提出一种基于上下文词向量和主题模型的实体消歧方法。首先,在传统词向量模型上增加上下文方向向量,用于表征语序,并利用该模型与主题模型训练主题词向量;其次,分别 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍研究以及中华文化的弘扬。除自动断句,该文还尝试了自动标点任务。该方案自行预训 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02