摘要老挝语是一种无空格切分的字母语言,在进行自然语言处理工作时需要首先进行分词处理。现有分词算法主要为首先使用规则进行音节切分,然后根据音节切分结果进行老挝语分词,存在错误传递等问题。该文提出一种基于神经网络的端到端老挝语分词方法,基于多任务联合学习思想,将老挝语音节切分与分词工作进行结合,实现了基于双向长短时记忆循环神经网络(BiLSTM)的端到端老挝语分词模型。实验表明,端到端的老挝语分词模型准确率达到89.02%,较以往分词模型有所提升。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3192
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
一种基于LSTM的端到端多任务老挝语分词方法
本站小编 Free考研考试/2022-01-02
相关话题/工作 实验 语言 老挝 分词
自然语言预训练模型知识增强方法综述
摘要将知识引入到依靠数据驱动的人工智能模型中是实现人机混合智能的一种重要途径。当前以BERT为代表的预训练模型在自然语言处理领域取得了显著的成功,但是由于预训练模型大多是在大规模非结构化的语料数据上训练出来的,因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷。该文针对预训练词嵌入 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于大规模语料库的古文词典构建及分词技术研究
摘要古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向专业领域的多头注意力中文分词模型——以西藏畜牧业为例
摘要专业领域语料往往比通用领域语料涵盖更多未登录词,如西藏畜牧业领域语料包含大量直接音译或者合成的人名、地名、牲畜名、牧草名等未登录词,是造成分词准确率低的最主要原因。针对该问题,该文提出面向专业领域的多头注意力机制中文分词模型,该模型把字向量表示的语句作为输入,利用双向门控循环神经网络与多头注意力 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于BERT的多层标签指针网络事件抽取模型——2020语言与智能技术竞赛事件抽取任务系统报告
摘要事件抽取(eventextraction,EE)是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术,是智能风控、智能投研、舆情监测等人工智能应用的重要技术基础。该文提出一种端到端的多标签指针网络事件抽取方法,并将事件检测任务融入到事件元素识别任务中,达到同时抽取事件元素及事件类型的目的。 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02自然语言处理评测中的问题与对策
摘要自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出发,分类综述了主流自然语言处理评测的任务和特点,进而总结归纳了自然语言处理评 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于图神经网络和语义知识的自然语言推理任务研究
摘要自然语言推理任务的目的是推断两个句子之间的语义逻辑关系。该文通过模仿人类的推理过程构造模型,首先利用长短时记忆网络提取词的语境特征,模仿人类粗读句子的过程;然后依据外部语义知识,连接两个句子中有语义联系的词,构造一个以词为节点的语义图;接下来模仿人类比较两个句子的语义角色相似性的思维,用图卷积或 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法
摘要由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能。CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测, ...中科院软件研究所 本站小编 Free考研考试 2022-01-02人脑如何学习新的语言规则
摘要成人大脑究竟能否掌握新的语言规则,是语言学习研究领域一直存在争议的问题。习得年龄、输入量和相似性,哪个才是影响语言规则学习的重要因素?学界始终没有统一的结论。该文以成年汉语母语者为研究对象,基于小数据的人工语法学习(artificialgrammarlearning,AGL)范式设计实验,采用跟 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于深层语言模型的古汉语知识表示及自动断句研究
摘要古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02图神经网络在自然语言处理中的应用
摘要近几年,神经网络因其强大的表征能力逐渐取代传统的机器学习成为自然语言处理任务的基本模型。然而经典的神经网络模型只能处理欧氏空间中的数据,自然语言处理领域中,篇章结构,句法甚至句子本身都以图数据的形式存在。因此,图神经网络引起学界广泛关注,并在自然语言处理的多个领域成功应用。该文对图神经网络在自然 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02