摘要互联网存在海量的文献和科技信息,隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本,以维基百科中军事领域的新技术为基点采集语料,涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范,开展了大规模语料的标注工作,构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章,包含24 487个句子和33 756个技术和术语。同时,该文探讨了模型预标注策略的可行性,并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明,技术和术语识别性能F1值达到70.40%,为进一步的技术和术语识别研究提供了基础。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3009
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
面向国防科技领域的技术和术语语料库构建方法
本站小编 Free考研考试/2022-01-02
相关话题/技术 军事 基础 文献 工作
基于文献链接信息分析的科技资源风险评估
摘要文献中的链接将文献与数据、代码、文档、网页等科技资源相关联,资源链接引用的上下文信息反映了科研活动中科研主体与科技资源形成的关系。该文通过对文献中的链接信息进行细粒度分析,提出了一种对其关联的科技资源种类和引用目的进行知识建模的方法,并在大规模文献数据集上进行了实证。同时从国内外科技资源的利用情 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向智能客服系统的情感分析技术
摘要该文以阿里小蜜为例,对智能客服系统中的情感分析技术进行比较全面的介绍,包括情感分析算法模型的原理及其在智能客服系统的多个应用场景中的实际落地使用方式和效果分析。智能客服在解决客户高频业务问题的同时,也需要给客户提供多维度的、具有类人能力的助理、导购、语聊和娱乐等服务,提高客户对智能客服机器人的整 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02自动构建基于电视剧字幕和剧本的日常会话基础标注库
摘要真实对话数据量不足已经成为限制数据驱动的对话生成系统性能提升的主要因素,尤其是汉语语料。为了获得丰富的日常会话语料,可以利用字幕时间戳信息把英语电视剧的英文字幕及其对应的中文字幕进行同步,从而生成大量的汉英双语同步字幕。然后通过信息检索的方法把双语同步字幕的英文句子跟英语剧本的演员台词进行自动对 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02深度学习建模下的自动句子填空技术
摘要该文提出了一种结合依存句法分析和深度神经网络的自动句子填空技术。首先,提出了一种依存句法信息展开的序列建模方案,可以在引入句法信息的同时兼顾效率,并在此基础上利用排序学习思想,训练候选答案排序模型;其次,针对整体序列建模的细节建模失准问题,提出了一种基于语言模型多状态信息融合的自动句子填空模型; ...中科院软件研究所 本站小编 Free考研考试 2022-01-02社交媒体话题检测与追踪技术研究综述
摘要随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于查询的新闻多文档自动摘要技术研究
摘要针对新闻文本领域,该文提出一种基于查询的自动文本摘要技术,更加有针对性地满足用户信息需求。根据句子的TF-IDF、与查询句的相似度等要素,计算句子权重,并根据句子指示的时间给定不同的时序权重系数,使得最近发生的新闻内容具有更高的权重,最后使用最大边界相关的方法选择摘要句。通过与基于TF-IDF、 ...中科院软件研究所 本站小编 Free考研考试 2022-01-022018机器阅读理解技术竞赛总体报告
摘要机器阅读理解是自然语言处理和人工智能领域的前沿课题,“2018机器阅读理解技术竞赛”旨在推动相关技术研究和应用的发展。竞赛发布了最大规模的中文阅读理解数据集,提供了先进的开源基线系统,采用改进的自动评价指标,吸引了国内外千余支队伍参与,参赛系统效果提升显著。该文详细介绍技术竞赛的总体情况、竞赛设 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于TDNN-FSMN的蒙古语语音识别技术研究
摘要为了提高蒙古语语音识别性能,该文首先将时延神经网络融合前馈型序列记忆网络应用于蒙古语语音识别任务中,通过对长序列语音帧建模来充分挖掘上下文相关信息;此外研究了前馈型序列记忆网络“记忆”模块中历史信息和未来信息长度对模型的影响;最后分析了融合的网络结构中隐藏层个数及隐藏层节点数对声学模型性能的影响 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据增强技术的神经机器翻译
摘要神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于卷积降噪自编码器的藏文历史文献版面分析方法
摘要近年来,随着人们对历史和传统文化的保护和传承越来越重视,研究人员对历史文献数字化的兴趣也越来越高涨。版面分析是历史文献数字化的重要基础步骤,该文提出了一种基于卷积降噪自编码器的藏文历史文献版面分析方法。首先,将藏文历史文献图像进行超像素聚类获得超像素块;然后,利用卷积降噪自编码器提取超像素块的特 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02