摘要释义生成任务是指为一个目标词生成相应的释义。该文在中文释义生成任务中使用了目标词的上下文信息,并提出了一个基于BERT与柱搜索的释义生成模型。该文构建了包含上下文的CWN中文数据集,同时也在Oxford英文数据集上开展了实验。实验结果显示,该文模型在中英文数据集上性能均有显著提升,其中CWN数据集实验结果相比基线模型BLEU指标提升了10.47,语义相似度指标提升了0.105。语义相似度指标与人工评价结果相关性更高。最后,该文分析了中文释义生成任务仍存在的四个问题。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3220
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于BERT与柱搜索的中文释义生成
本站小编 Free考研考试/2022-01-02
相关话题/数据 中文 指标 实验 英文
面向垂直领域的阅读理解数据增强方法
摘要阅读理解问答系统是利用语义理解等自然语言处理技术,根据输入问题,对非结构化文档数据进行分析,生成一个答案,具有很高的研究和应用价值。在垂直领域应用过程中,阅读理解问答数据标注成本高且用户问题表达复杂多样,使得阅读理解问答系统准确率低、鲁棒性差。针对这一问题,该文提出一种面向垂直领域的阅读理解问答 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于多头注意力和BiLSTM改进DAM模型的中文问答匹配方法
摘要针对目前检索式多轮对话深度注意力机制模型(DeepAttentionMatchingNetwork,DAM)候选回复细节不匹配和语义混淆的问题,该文提出基于多头注意力和双向长短时记忆网络(BiLSTM)改进DAM模型的中文问答匹配方法,采用多头注意力机制,使模型有能力建模较长的多轮对话,更好地处 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向人工智能伦理计算的中文道德词典构建方法研究
摘要道德词典资源建设是人工智能伦理计算的一个研究重点。由于道德行为复杂多样,现有的英文道德词典分类体系并不完善,而中文方面目前尚未有相关的词典资源,理论体系和构建方法仍待探究。针对以上问题,该文提出了面向人工智能伦理计算的中文道德词典构建任务,设计了四类标签和四种类型,得到包含25012个词的中文道 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文知识库问答中的路径选择
摘要路径选择是知识库问答任务的关键步骤,语义相似度常被用来计算路径对于问句的相似度得分。针对测试集中存在大量未见的关系,该文提出使用一种负例动态采样的语义相似度模型的训练方法,去丰富训练集中关系的多样性,模型性能得到显著提升。针对复杂问题候选路径数量组合爆炸问题,该文比较了两种路径剪枝方法,即基于分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据增强的高考阅读理解自动答题研究
摘要机器阅读理解是自然语言处理领域中的一项重要研究任务,高考阅读理解自动答题是近年来阅读理解任务中的又一挑战。目前高考语文阅读理解任务中真题和模拟题的数量相对较少,基于深度学习的方法受到实验数据规模较小的限制,所得的实验结果相比传统方法无明显优势。基于此,该文探索了面向高考语文阅读理解的数据增强方法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向专业领域的多头注意力中文分词模型——以西藏畜牧业为例
摘要专业领域语料往往比通用领域语料涵盖更多未登录词,如西藏畜牧业领域语料包含大量直接音译或者合成的人名、地名、牲畜名、牧草名等未登录词,是造成分词准确率低的最主要原因。针对该问题,该文提出面向专业领域的多头注意力机制中文分词模型,该模型把字向量表示的语句作为输入,利用双向门控循环神经网络与多头注意力 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向中文成语的阅读理解方法研究
摘要在自然语言处理领域,全局注意力机制通过考虑编码器的所有隐藏状态来捕获信息,从而帮助预测结果。然而在理解汉语成语这种复杂的语言现象时,模型往往会因特定语境的干扰而产生错误的决定和认知。因此,为了使模型更好地感知成语在不同语境下的语法功能,该文提出了一种增强型的全局注意力机制,通过对每个位置空间产生 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02多目标情感分类中文数据集构建及分析研究
摘要目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02CDCPP:跨领域中文标点符号预测
摘要在中文文本特别是在社交媒体及问答领域文本中,存在非常多的标点符号错误或缺失的情况,这严重影响对文本进行语义分析及机器翻译等各项自然语言处理的效果。当前对标点符号进行预测的相关研究多集中于英文对话的语音转写文本,缺少对社交媒体及问答领域文本进行标点符号预测的相关研究,也没有这些领域公开的数据集。该 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法
摘要由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能。CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测, ...中科院软件研究所 本站小编 Free考研考试 2022-01-02