摘要中文分词任务是自然语言处理的一项基本任务。但基于统计的中文分词方法需要大规模的训练样本,且拥有较差的领域适应性。然而,法律文书涉及众多领域,对大量的语料进行标注需要耗费大量的人力、物力。针对该问题,该文提出了一种基于联合学习的跨领域中文分词方法,该方法通过联合学习将大量的源领域样本辅助目标领域的分词,从而提升分词性能。实验结果表明,在目标领域标注样本较少的条件下,该文方法的中文分词性能明显优于传统方法。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2826
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于联合学习的跨领域法律文书中文分词方法
本站小编 Free考研考试/2022-01-02
相关话题/中文 实验 统计 分词 领域
基于膨胀卷积神经网络模型的中文分词方法
摘要目前,许多深度神经网络模型以双向长短时记忆网络结构处理中文分词任务,存在输入特征不够丰富、语义理解不全、计算速度慢的问题。针对以上问题,该文提出一种基于膨胀卷积神经网络模型的中文分词方法。通过加入汉字字根信息并用卷积神经网络提取特征来丰富输入特征;使用膨胀卷积神经网络模型并加入残差结构进行训练, ...中科院软件研究所 本站小编 Free考研考试 2022-01-02结合注意力机制与双向LSTM的中文事件检测方法
摘要事件检测是信息抽取领域的重要任务之一。已有的方法大多高度依赖复杂的语言特征工程和自然语言处理工具,中文事件检测还存在由分词带来的触发词分割问题。该文将中文事件检测视为一个序列标注而非分类问题,提出了一种结合注意力机制与长短期记忆神经网络的中文事件检测模型ATT-BiLSTM,利用注意力机制来更好 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02运用多层注意力神经网络识别中文隐式篇章关系
摘要中文隐式篇章关系识别是一个具有挑战性的任务,其难点在于如何捕获论元的语义信息。该文提出了一个模拟人类双向阅读和重复阅读过程的三层注意力网络模型(TLAN)用于识别中文隐式篇章关系。首先,使用Self-Attention层对论元进行编码;然后,通过细粒度的InteractiveAttention层 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合概念与逻辑的中文深层语义描述体系
摘要自然语言的语义理解涉及多个层面的问题,包括以谓词为中心的基本命题义、命题义之外的概念义、逻辑补足义等。目前主流的浅层语义分析主要集中在对命题义的分析上,缺少对概念义和逻辑义的支持,难以辅助计算机对文本的深度理解与推理。该文借鉴论元结构理论、事件语义学等相关语言学理论,突破语义角色标注等浅层语义分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于统计语言模型改进的Word2Vec优化策略研究
摘要该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向中文的修辞结构关系分类体系及无歧义标注方法
摘要修辞结构理论是一种重要的篇章结构理论,其核心是修辞结构关系。该文基于修辞结构理论,结合中文文本特点,提出面向中文的层次化修辞结构关系分类体系及多元定义。同时,针对标注者遇到的歧义问题,提出了无歧义标注方法。为了便于标注,设计并实现了基于Java图形界面的标注工具RSTTagger,该工具以句子的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于领域特征的神经机器翻译领域适应方法
摘要神经机器翻译在资源丰富领域上训练的翻译模型往往在其他资源稀缺领域中表现较差,领域适应是利用资源丰富的领域帮助资源稀少的领域提升翻译质量的一种方法。该文提出基于领域特征的领域适应方法以提升资源稀缺领域的神经机器翻译质量。具体而言,该文尝试构建领域敏感网络以获得领域特有特征,构建领域不敏感网络以获得 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于Self-Attention和Bi-LSTM的中文短文本情感分析
摘要短文本情感分析用于判断文本的情感极性,在商品评论、舆情监控等领域有重要应用。由于目前主流的基于词注意力机制的双向循环神经网络模型性能很大程度上依赖于分词的准确性,且注意力机制需较多的参数依赖,无法使模型更多的关注短文本的内部序列关系。针对上述问题,该文提出了基于字向量表示方法并结合Self-at ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于笔画中文字向量模型设计与研究
摘要中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02采用拼音降维的中文对话模型
摘要对话是自然语言处理的一个重要研究领域,其成果已经得到广泛的应用。然而中文对话模型训练时由于字词数量庞大,必然会面临模型复杂度过高的问题。为解决此问题,该文首先将对话模型的汉字输入转化为拼音输入并将拼音分为声母、韵母和声调三个部分,以此减小输入的字词数量。然后以嵌入编码的方法将拼音信息组合为图像形 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02