删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于深度学习和迁移学习的领域自适应中文分词

本站小编 Free考研考试/2022-01-02

摘要为了提高专业领域中文分词性能,以及弥补专业领域大规模标注语料难以获取的不足,该文提出基于深度学习以及迁移学习的领域自适应分词方法。首先,构建包含词典特征的基于深度学习的双向长短期记忆条件随机场(BI-LSTM-CRF)分词模型,在通用领域分词语料上训练得到模型参数;接着,以建设工程法律领域文本作为小规模分词训练语料,对通用领域语料的BI-LSTM-CRF分词模型进行参数微调,同时在模型的词典特征中加入领域词典。实验结果表明,迁移学习减少领域分词模型的迭代次数,同时,与通用领域的BI-LSTM-CRF模型相比,该文提出的分词方法在工程法律领域的分词结果F1值提高了7.02%,与预测时加入领域词典的BI-LSTM-CRF模型相比,分词结果的F1值提高了4.22%。该文提出的分词模型可以减少分词的领域训练语料的标注,同时实现分词模型跨领域的迁移。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2825
相关话题/法律 分词 实验 中文 工程

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于膨胀卷积神经网络模型的中文分词方法
    摘要目前,许多深度神经网络模型以双向长短时记忆网络结构处理中文分词任务,存在输入特征不够丰富、语义理解不全、计算速度慢的问题。针对以上问题,该文提出一种基于膨胀卷积神经网络模型的中文分词方法。通过加入汉字字根信息并用卷积神经网络提取特征来丰富输入特征;使用膨胀卷积神经网络模型并加入残差结构进行训练, ...
    本站小编 Free考研考试 2022-01-02
  • 基于联合学习的跨领域法律文书中文分词方法
    摘要中文分词任务是自然语言处理的一项基本任务。但基于统计的中文分词方法需要大规模的训练样本,且拥有较差的领域适应性。然而,法律文书涉及众多领域,对大量的语料进行标注需要耗费大量的人力、物力。针对该问题,该文提出了一种基于联合学习的跨领域中文分词方法,该方法通过联合学习将大量的源领域样本辅助目标领域的 ...
    本站小编 Free考研考试 2022-01-02
  • 结合注意力机制与双向LSTM的中文事件检测方法
    摘要事件检测是信息抽取领域的重要任务之一。已有的方法大多高度依赖复杂的语言特征工程和自然语言处理工具,中文事件检测还存在由分词带来的触发词分割问题。该文将中文事件检测视为一个序列标注而非分类问题,提出了一种结合注意力机制与长短期记忆神经网络的中文事件检测模型ATT-BiLSTM,利用注意力机制来更好 ...
    本站小编 Free考研考试 2022-01-02
  • 运用多层注意力神经网络识别中文隐式篇章关系
    摘要中文隐式篇章关系识别是一个具有挑战性的任务,其难点在于如何捕获论元的语义信息。该文提出了一个模拟人类双向阅读和重复阅读过程的三层注意力网络模型(TLAN)用于识别中文隐式篇章关系。首先,使用Self-Attention层对论元进行编码;然后,通过细粒度的InteractiveAttention层 ...
    本站小编 Free考研考试 2022-01-02
  • 融合概念与逻辑的中文深层语义描述体系
    摘要自然语言的语义理解涉及多个层面的问题,包括以谓词为中心的基本命题义、命题义之外的概念义、逻辑补足义等。目前主流的浅层语义分析主要集中在对命题义的分析上,缺少对概念义和逻辑义的支持,难以辅助计算机对文本的深度理解与推理。该文借鉴论元结构理论、事件语义学等相关语言学理论,突破语义角色标注等浅层语义分 ...
    本站小编 Free考研考试 2022-01-02
  • 面向中文的修辞结构关系分类体系及无歧义标注方法
    摘要修辞结构理论是一种重要的篇章结构理论,其核心是修辞结构关系。该文基于修辞结构理论,结合中文文本特点,提出面向中文的层次化修辞结构关系分类体系及多元定义。同时,针对标注者遇到的歧义问题,提出了无歧义标注方法。为了便于标注,设计并实现了基于Java图形界面的标注工具RSTTagger,该工具以句子的 ...
    本站小编 Free考研考试 2022-01-02
  • 基于Self-Attention和Bi-LSTM的中文短文本情感分析
    摘要短文本情感分析用于判断文本的情感极性,在商品评论、舆情监控等领域有重要应用。由于目前主流的基于词注意力机制的双向循环神经网络模型性能很大程度上依赖于分词的准确性,且注意力机制需较多的参数依赖,无法使模型更多的关注短文本的内部序列关系。针对上述问题,该文提出了基于字向量表示方法并结合Self-at ...
    本站小编 Free考研考试 2022-01-02
  • 基于笔画中文字向量模型设计与研究
    摘要中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用 ...
    本站小编 Free考研考试 2022-01-02
  • 采用拼音降维的中文对话模型
    摘要对话是自然语言处理的一个重要研究领域,其成果已经得到广泛的应用。然而中文对话模型训练时由于字词数量庞大,必然会面临模型复杂度过高的问题。为解决此问题,该文首先将对话模型的汉字输入转化为拼音输入并将拼音分为声母、韵母和声调三个部分,以此减小输入的字词数量。然后以嵌入编码的方法将拼音信息组合为图像形 ...
    本站小编 Free考研考试 2022-01-02
  • 基于转移神经网络的中文AMR解析
    摘要抽象语义表示(abstractmeaningrepresentation,AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图。目前,中文AMR研究仍然处于起步阶段。该文结合中文AMR特性,采用基于转移神经网络的方法对中文 ...
    本站小编 Free考研考试 2022-01-02