删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向司法领域的高质量开源藏汉平行语料库构建

本站小编 Free考研考试/2022-01-02

摘要面向司法领域的藏汉机器翻译面临严重的数据稀疏问题。该文从两个方面展开研究: 第一,相较通用领域,司法领域的藏语需要有更严谨的逻辑表达和更多的专业术语。然而,目前藏语资源在司法领域内缺乏对应的语料、稀缺专业术语词以及句法结构。第二,藏语的特殊词汇表达方式和特定句法结构使得通用语料构建方法难以构建藏汉平行语料库。因此,该文提出一种针对司法领域藏汉平行语料的轻量级构建方法。首先,采取人工标注的方法获取一个中等规模的司法领域藏汉专业术语表作为先验知识库,以避免领域越界而产生的语料逻辑表达问题和领域术语缺失问题;其次,从全国的地方法庭官网采集实例语料数据,例如,裁判文书。优先寻找藏文实例数据,其次是汉语,以避免后续构造藏语句子而丢失特殊的词汇表达和句式结构。基于以上原则采集藏汉语料构建高质量的藏汉平行语料库,具体方法包括: 爬虫获取语料,规则断章对齐检测,语句边界识别,语料库自动清洗。最终,该文构建了16万级规模的藏汉司法领域语料库,并通过多种翻译模型和交叉实验验证了构建的语料库具有高质量和鲁棒性等特点。另外,此语料库会开源以便相关研究人员用于科研工作。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3217
相关话题/司法 数据 结构 逻辑 汉语

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 面向垂直领域的阅读理解数据增强方法
    摘要阅读理解问答系统是利用语义理解等自然语言处理技术,根据输入问题,对非结构化文档数据进行分析,生成一个答案,具有很高的研究和应用价值。在垂直领域应用过程中,阅读理解问答数据标注成本高且用户问题表达复杂多样,使得阅读理解问答系统准确率低、鲁棒性差。针对这一问题,该文提出一种面向垂直领域的阅读理解问答 ...
    本站小编 Free考研考试 2022-01-02
  • 面向开放文本的逻辑推理知识抽取与事件影响推理探索
    摘要开放文本中蕴含着大量的逻辑性知识,以刻画事物之间逻辑传导关系的逻辑类知识库是推动知识推理发展的重要基础,研发大规模逻辑推理知识库有助于支持由实体或事件等传导驱动的决策任务。该文围绕逻辑推理知识库,论述了知识库的概念、类别和基本构成,提出了一种面向大规模开放文本的实体描述、事件因果逻辑知识快速抽取 ...
    本站小编 Free考研考试 2022-01-02
  • 基于人工智能的司法判决预测研究与进展
    摘要随着人工智能和大数据处理技术的发展,人工智能技术在辅助法官办案、辅助诉讼、辅助司法管理等诸多方面起着重大作用,推进了智慧法院的发展,并受到学术界及工业界的广泛关注。该文在针对人工智能技术在辅助司法办案相关模型分析的基础上,归纳并提出了目前司法判决预测领域存在的多特征的罪名分类预测、多标签的罪名分 ...
    本站小编 Free考研考试 2022-01-02
  • 基于强化学习与自注意力机制的朝鲜语重要句子结构识别
    摘要针对构建朝鲜语语料库的人工标注工作过于费时费力,少数民族语言难以与各家资源融合的这一问题,该文从表征学习的角度,意图构建有效的朝鲜语句子结构表示,用来提升后续自然语言处理任务的效果。我们将深度强化学习与自注意力机制相结合,提出了一种分层结构的自注意力模型(HierarchicallyStruct ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据增强的高考阅读理解自动答题研究
    摘要机器阅读理解是自然语言处理领域中的一项重要研究任务,高考阅读理解自动答题是近年来阅读理解任务中的又一挑战。目前高考语文阅读理解任务中真题和模拟题的数量相对较少,基于深度学习的方法受到实验数据规模较小的限制,所得的实验结果相比传统方法无明显优势。基于此,该文探索了面向高考语文阅读理解的数据增强方法 ...
    本站小编 Free考研考试 2022-01-02
  • 多目标情感分类中文数据集构建及分析研究
    摘要目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身 ...
    本站小编 Free考研考试 2022-01-02
  • 基于网络结构的增强社会群体凝聚力策略研究
    摘要目前社会群体研究主要集中在将群体划分为多个社区。然而,在一个群体中,通常希望所有的成员团结一致,形成一个具有凝聚力的群体,这对社会群体的合作以及社会习俗形成等相关研究具有广泛意义。因此理解社会凝聚力与社会群体的动态行为之间的关系显得十分重要。该文在合作博弈的基础上,建立了社会群体动态行为模型。基 ...
    本站小编 Free考研考试 2022-01-02
  • 基于深层语言模型的古汉语知识表示及自动断句研究
    摘要古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以 ...
    本站小编 Free考研考试 2022-01-02
  • 基于部分标签数据和经验分布的命名实体识别
    摘要近年来,基于数据驱动的命名实体识别方法在新闻、生物医疗等领域上取得了很大的成功,然而许多领域缺少标签,且人工标注成本高昂。为了降低标注成本,该文尝试使用含有噪声的部分标签数据进行命名实体识别,提出了一种基于部分标签数据和经验分布的方法。首先介绍基于部分标签数据的建模方法,然后引入标签经验分布的假 ...
    本站小编 Free考研考试 2022-01-02
  • 融合序列和图结构的机器阅读理解
    摘要机器阅读理解是自然语言处理中的一项重要而富有挑战性的任务。近年来,以BERT为代表的大规模预训练语言模型在此领域取得了显著的成功。但是,受限于序列模型的结构和规模,基于BERT的阅读理解模型在长距离和全局语义构建的能力有着显著缺陷,影响了其在阅读理解任务上的表现。针对这一问题,该文提出一种融合了 ...
    本站小编 Free考研考试 2022-01-02