摘要随着人工智能和大数据处理技术的发展,人工智能技术在辅助法官办案、辅助诉讼、辅助司法管理等诸多方面起着重大作用,推进了智慧法院的发展,并受到学术界及工业界的广泛关注。该文在针对人工智能技术在辅助司法办案相关模型分析的基础上,归纳并提出了目前司法判决预测领域存在的多特征的罪名分类预测、多标签的罪名分 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要预训练技术当前在自然语言处理领域占有举足轻重的位置。尤其近两年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等预训练模型的成功,进一步将预训练技术推向了研究高潮。该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类,并分析了当前自然语言处理 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要译文质量估计技术是指在无参考译文的情况下对机器译文进行评价的方法。近年来,深度学习技术取得了重大突破,融合深度学习技术的神经译文质量估计方法逐渐取代了传统的译文质量估计方法成为主流。神经译文质量估计模型具有一定的隐式学习源语言句法结构的能力,但无法从语言学的角度有效地捕捉句子内部的句法关系。该文 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要伪平行句对抽取是缓解汉-越低资源机器翻译中数据稀缺问题的关键任务,同时也是提升机器翻译性能的重要手段。传统的伪平行句对抽取方法都是基于语义相似性度量,但是传统基于深度学习框架的语义表征方法没有考虑不同词语语义表征的难易程度,因此导致句子语义信息不充分,提取到的句子质量不高,噪声比较大。针对此问题 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要针对构建朝鲜语语料库的人工标注工作过于费时费力,少数民族语言难以与各家资源融合的这一问题,该文从表征学习的角度,意图构建有效的朝鲜语句子结构表示,用来提升后续自然语言处理任务的效果。我们将深度强化学习与自注意力机制相结合,提出了一种分层结构的自注意力模型(HierarchicallyStruct ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要老挝语是一种无空格切分的字母语言,在进行自然语言处理工作时需要首先进行分词处理。现有分词算法主要为首先使用规则进行音节切分,然后根据音节切分结果进行老挝语分词,存在错误传递等问题。该文提出一种基于神经网络的端到端老挝语分词方法,基于多任务联合学习思想,将老挝语音节切分与分词工作进行结合,实现了基 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要蛋白质复合物对于生物学家有效了解细胞组织和功能具有重要意义,如何通过计算方法从蛋白质-蛋白质相互作用(PPI)网络中识别复合物是当前研究热点之一。然而,由于PPI网络中存在大量假阴性和假阳性噪声数据且现有已知蛋白质复合物并不完整,使得如何克服PPI网络的噪声问题,以及更好地利用已知蛋白质复合物, ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要该研究采用事件相关电位(ERP)观察了被试在识别积极、中性和消极的脸部情绪时,在大脑颞枕部电极点上引发的N170效应,来探索阅读严肃文学小说是否会影响人对他人情绪的反应。阅读组被试在两次脸部情绪识别测试之间阅读严肃文学小说,而对照组没有。第二次测试相比第一次测试,N170的幅度增大,但是阅读严肃 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要近年来,Hashtag推荐任务吸引了很多研究者的关注。目前,大部分深度学习方法把这个任务看作是一个多标签分类问题,将Hashtag看作为微博的类别。但是这些方法的输出空间固定,在没有进行重新训练的情况下,不能处理训练不可见的Hashtag。然而,实际上Hashtag会随着时事热点不断快速更新。为 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要路径选择是知识库问答任务的关键步骤,语义相似度常被用来计算路径对于问句的相似度得分。针对测试集中存在大量未见的关系,该文提出使用一种负例动态采样的语义相似度模型的训练方法,去丰富训练集中关系的多样性,模型性能得到显著提升。针对复杂问题候选路径数量组合爆炸问题,该文比较了两种路径剪枝方法,即基于分 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要现有多轮对话生成的Encoder-Decoder模型容易产生单一的响应,虽然使用条件自动编码器(CVAE)可以有效改善响应的多样性问题,但是基于CVAE的模型大多不能够捕捉上下文中较长的依赖。同时,现有的模型也无法显式处理上下文话语和源语句之间的差异。该文将Transformer与CVAE结合, ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要机器阅读理解是自然语言处理领域中的一项重要研究任务,高考阅读理解自动答题是近年来阅读理解任务中的又一挑战。目前高考语文阅读理解任务中真题和模拟题的数量相对较少,基于深度学习的方法受到实验数据规模较小的限制,所得的实验结果相比传统方法无明显优势。基于此,该文探索了面向高考语文阅读理解的数据增强方法 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要对抗样本攻击与防御是最近几年兴起的一个研究热点,攻击者通过微小的修改生成对抗样本来使深度神经网络预测出错。生成的对抗样本可以揭示神经网络的脆弱性,并可以修复这些脆弱的神经网络以提高模型的安全性和鲁棒性。对抗样本的攻击对象可以分为图像和文本两种,大部分研究方法和成果都针对图像领域,由于文本与图像本 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要神经机器翻译是目前机器翻译领域的主流方法,拥有足够数量的双语平行语料是训练出一个好的翻译模型的前提。双语句对齐技术作为一种从不同语言端单语语料中获取双语平行句对的技术,因此得到广泛的研究。该文首先简单介绍句对齐任务及其相应的评测标准,然后归纳总结前人在句对齐任务上的研究进展,以及句对齐任务的相关 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要隐式篇章关系识别是篇章关系识别的子任务,其挑战性在于难以学习到具有丰富语义信息和交互信息的论元表示。针对这一难点,该文提出一种基于图卷积神经网络(GraphConvolutionalNetwork,GCN)的隐式篇章关系分类方法。该方法采用预训练语言模型BERT(BidirectionalEnc ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要幽默是人类独有的品质,在日常交际中发挥着重要作用。随着人工智能的快速发展,如何让计算机识别幽默成了自然语言处理研究领域的热门研究内容之一。该文针对幽默的自动识别问题,基于幽默理论和领域知识,系统地分析总结了幽默的五类显著特性,包括不一致特性、模糊特性、情感特性、语音特性和句法结构特性,并针对每一 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要神经机器翻译在语料丰富的语种上取得了良好的翻译效果,但是在汉语-越南语这类双语资源稀缺的语种上性能不佳,通过对现有小规模双语语料进行词级替换生成伪平行句对可以较好地缓解此类问题。考虑到汉越词级替换中易存在一词多译问题,该文对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要针对跨领域少样本关系分类任务,该文提出分段注意力匹配网络PAMN。基于句子相似度计算的少样本学习算法有较好的领域适应性,PAMN在句子相似度算法上进行改进,针对关系抽取问题,将句子分段进行匹配,能更准确地计算关系分类实例间的相似度。PAMN由编码层和句子匹配层组成。在编码层,PAMN使用预训练模 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要关键短语生成是一个能从长文档或者文献中捕获中心思想的实用任务。先前的神经关键短语生成方法基本只注重词级别的信息而忽略文档结构。该文提出了一个句级选择网络(sentenceselectivenetwork,SenSeNet)用于关键短语生成。该模型重点关注文档的句子结构信息,通过学习句子隐式表示来 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务。在新闻报道、维基百科等规范文本上,该任务的研究相对丰富且已取得了一定的效果,但面向对话文本的相关研究还处于起始阶段。相较于规范文本,对话是一个交互的过程,大量信息隐藏在交互中,这使得面向对话文本的实体关系抽取更具挑战 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要当前的电子病历实体关系抽取方法存在两个问题:忽视了位置向量噪声和语义表示匮乏。该文提出一种基于位置降噪和丰富语义的实体关系抽取模型。模型首先利用位置信息和专业领域语料训练的词向量信息获取每个词的注意力权重,然后将此权重与通用领域语料训练的词向量结合,实现位置向量降噪和丰富语义引入,最后根据加权后 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要在方面级情感分类中,常用的方法是用卷积神经网络或循环神经网络提取特征,利用注意力权重获取序列中不同词汇的重要程度。但此类方法未能很好地利用文本的句法信息,导致模型不能准确地在评价词与方面词之间建立联系。该文提出一种图卷积神经记忆网络模型(MemGCN)来解决此依赖问题。首先通过记忆网络存储文本表 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要结合强化学习(特别是深度强化学习)的推荐算法,在近年来相比已有方法取得了较大的提升。然而,现有绝大多数基于深度强化学习的推荐方法仅使用循环神经网络(RNN)等方法学习用户的短期兴趣,忽略了用户的长期兴趣,导致对用户的兴趣建模存在不足。因此,该文提出一种结合用户长期兴趣与短期兴趣的深度强化学习推荐 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要针对目前信息级联预测模型的构建多基于级联的时序信息或者空间拓扑结构、极少考虑两者的结合问题,该文提出一种面向社交网络的基于深度学习方法的信息级联预测(InformationCascadePrediction,ICP)模型。首先,使用拉普拉斯矩阵对级联节点采样,生成空间序列;然后,通过结合了图卷积 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要自动问题生成任务旨在给文章中的一段文本生成相应的自然语言的问句,该研究在问答系统和语音助手的对话系统中有重要作用,可以帮助它们启动对话和继续对话。目前的神经网络问题生成模型主要是将包含答案的句子或者整篇文章作为模型的输入,而这些方法存在语义表示不能很好地结合句子和文章信息的问题。因此该文提出多输 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要针对文字直播自动摘要的新闻稿存在背景信息缺乏、难以引起读者兴趣等不足,该文提出一种NBA赛事新闻的自动生成方法。采用该文提出的关键事件抽取算法从文字直播数据中抽取事件点、匹配突出关键事件的模板来生成新闻初稿,再从构建的NBA赛事知识图谱中提取背景信息和描述重点,自动生成最终的新闻稿。该文构建并公 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要问题生成是给定文本,自动生成内容通顺、语义相关的自然语言问题。问题生成可应用于教育领域的阅读理解、辅助问答系统和对话系统,因此近年来引起了研究者的广泛关注和兴趣。该文对问题生成的相关研究进行了综述。首先阐释了问题生成的研究意义与应用场景,继而简略概述了基于规则的问题生成方法,然后从输入文本是句子 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要将知识引入到依靠数据驱动的人工智能模型中是实现人机混合智能的一种重要途径。当前以BERT为代表的预训练模型在自然语言处理领域取得了显著的成功,但是由于预训练模型大多是在大规模非结构化的语料数据上训练出来的,因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷。该文针对预训练词嵌入 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要文本蕴涵识别是对两个文本之间语义关系的有向推理,而词汇的词义对理解文本的语义以及推理文本之间的语义蕴涵关系有着重要作用。因此,为了有效利用词汇的词义信息推断文本之间的语义蕴涵关系,该文提出一种融合词义信息的文本蕴涵识别方法。该方法首次提出将原始的词汇转化为对应的目标词义,然后利用词汇的词义信息改 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源。当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低。 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要该文提出一种面向句子的汉英口语翻译自动评分方法,选取语义关键词、句子大意和口语流利度作为评分的主要参数。为了提高关键词评分的准确度,该文使用同义词辨析方法,识别考生答题关键词中的同义词;在句子层面,使用可伸展递归自编码(unfoldingrecursiveauto-encoder,URAE)神经 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通过组合池化的CNN进一步加强局部语义学习,同时以双通道的方式使用 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要专业领域语料往往比通用领域语料涵盖更多未登录词,如西藏畜牧业领域语料包含大量直接音译或者合成的人名、地名、牲畜名、牧草名等未登录词,是造成分词准确率低的最主要原因。针对该问题,该文提出面向专业领域的多头注意力机制中文分词模型,该模型把字向量表示的语句作为输入,利用双向门控循环神经网络与多头注意力 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要事件抽取(eventextraction,EE)是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术,是智能风控、智能投研、舆情监测等人工智能应用的重要技术基础。该文提出一种端到端的多标签指针网络事件抽取方法,并将事件检测任务融入到事件元素识别任务中,达到同时抽取事件元素及事件类型的目的。 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要小样本文本分类任务同时面临两个主要问题:①样本量少,易过拟合;②在元学习框架的任务形式下,监督信息被进一步稀疏化。近期工作中,利用图神经网络建模样本的全局信息表示(fullcontextembedding)成为小样本学习领域中一种行之有效的方法,但将其迁移至小样本文本分类任务,由于文本多噪声,且 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要为了从海量的热点事件社交媒体文本流中提取时序摘要,辅助用户快速获取热点事件的演化发展概况,该文在分析热点事件发展阶段的基础上,充分挖掘社交文本的时间特征和传播特征,提出了融合社交传播影响力的热点事件时序摘要方法。该方法抽取的摘要能完整反映事件发展演化过程,内容描述更合乎客观事实,同时在一定程度上 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要随着裁判文书等司法大数据不断积累,如何将人工智能与法律相结合成为了法律智能研究的热点。该文针对2020中国法研杯司法人工智能挑战赛(CAIL2020)的机器阅读理解任务,提出了一种基于多任务联合训练的机器阅读理解模型。该模型将阅读理解任务划分为四个子模块:文本编码模块、答案抽取模块、答案分类模块 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要在自然语言处理领域,全局注意力机制通过考虑编码器的所有隐藏状态来捕获信息,从而帮助预测结果。然而在理解汉语成语这种复杂的语言现象时,模型往往会因特定语境的干扰而产生错误的决定和认知。因此,为了使模型更好地感知成语在不同语境下的语法功能,该文提出了一种增强型的全局注意力机制,通过对每个位置空间产生 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要目前方面级情感分析方法主要利用注意力机制来实现句子与方面词的交互,然而该机制容易导致方面词与句子中各词的错误搭配,引入额外噪声。针对此问题,该文提出了一种基于特征双重蒸馏网络的方面级情感分析方法。首先利用BiLSTM提取句子中各词的上下文语义特征,并结合基于上下文的方面词嵌入方法,获取方面词的语 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要对话生成模型是对话系统中十分重要的组件。传统的对话生成模型仅利用用户的输入信息生成回复,这导致在生成过程中常会出现无意义的万能回复。最近有工作尝试将检索的方法融入生成模型从而提高模型的生成质量,但这些方法往往将重点放在如何编辑检索结果上,没有考虑检索结果与用户查询之间的语义空间差别。为解决这一问 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出发,分类综述了主流自然语言处理评测的任务和特点,进而总结归纳了自然语言处理评 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要在线社交网络中,微博平台的便捷性和开放性,给信息的传播和爆发提供了很大的便利。转发是微博平台上用户的重要行为,也是信息传播的关键机制。基于转发行为,分析一条推文是否被用户转发或者一段时间后的转发量,可以使我们更好地了解信息的传播特性,探索用户的行为与兴趣,以此推进信息推荐、预防突发事件和舆情监控 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要基于Transformer的序列转换模型是当前性能最优的机器翻译模型之一。该模型在生成机器译文时,通常从左到右逐个生成目标词,这使得当前位置词的生成不能利用译文中该词之后未生成词的信息,导致机器译文解码不充分从而降低译文质量。为了缓解上述问题,该文提出了基于重解码的神经机器翻译模型,该模型将已生 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要译文质量估计作为机器翻译中的一项重要任务,在机器翻译的发展和应用中发挥着重要的作用。该文提出了一种简单有效的基于Transformer的联合模型用于译文质量估计。该模型由Transformer瓶颈层和双向长短时记忆网络组成,Transformer瓶颈层参数利用双语平行语料进行初步优化,模型所有参 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要为了解决命名实体识别任务在面向新兴应用领域时,需要面对烦琐的模型重构过程和语料严重不足的问题,该文提出了一种基于注意力机制的领域自适应命名实体识别方法。首先,在通用领域数据集上构建了基于BERT(bidirectionalencoderrepresentationsfromtransformer ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要现有的命名实体识别方法主要是将句子看作一个序列进行处理,忽略了句子中潜在的句法信息,存在长距离依赖问题。为此,该文提出一种基于依存关系的命名实体识别模型,通过在输入数据中增加依存树信息,改变双向长短时记忆网络的层间传播方式,以获得单词在依存树中的子节点和父节点信息,并通过注意力机制动态选择两者的 ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02摘要关系三元组抽取是构建大规模知识图谱的基础,近年来受到学术界和工业界的广泛关注。为了提高模型对重叠关系三元组和多槽值关系三元组的抽取能力,该文提出了一个基于神经网络的端到端的关系三元组抽取模型BSLRel。其主要特点是将关系三元组抽取任务转化为级联的二元序列标注任务,并使用多信息融合结构Condi ...
中科院软件研究所 本站小编 Free考研考试 2022-01-02