摘要在许多信息检索任务中,为了进一步提高检索性能,通常需要对检索到的文档进行重新排序,目前的排序学习方法主要集中在损失函数的构造上,而没有考虑特征之间的关系。该文将多通道深度卷积神经网络作用于文档列表排序学习方法,即ListCNN,实现了信息检索的精确重排序。由于从文档中提取的多个特征中有一些特征具有局部相关性和冗余性,因此,文中使用卷积神经网络来重新提取特征,以提高列表方法的性能。ListCNN架构考虑了原始文档特征的局部相关性,能够有效地重新提取代表性特征。在公共数据集LETOR 4.0上对ListCNN进行实验验证,结果表明其性能优于已有文档列表方法。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3014
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
卷积重提取特征的文档列表排序学习方法
本站小编 Free考研考试/2022-01-02
相关话题/实验 数据 公共 特征 卷积
基于粗糙集和多通道词向量的中文文本情感特征分析
摘要粗糙集是一种能够有效处理不精确、不完备和不确定信息的数学工具,粗糙集的属性约简可以在保持文本情感分类能力不变的情况下对文本情感词特征进行约简。针对情感词特征空间维数过高、情感词特征表示缺少语义信息的问题,该文提出了RS-WvGv中文文本情感词特征表示方法。利用粗糙集决策表对整个语料库进行情感词特 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于性格情绪特征的改进主题情感模型
摘要近年来,以微博为代表的社交媒体在情感分析中备受关注。然而,绝大多数现有的主题情感模型并没有充分考虑到用户性格特征,导致情感分析结果难尽人意。故该文在现有的JST模型基础上进行改进,提出一种基于时间的性格建模方法,将用户性格特征纳入主题情感模型中;鉴于微博数据包含大量的表情符号之类的特有信息,为了 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据扩充的翻译记忆库与神经机器翻译融合方法
摘要神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02双特征空间的实体排序学习
摘要随着大规模知识图谱的出现以及企业高效管理领域知识图谱的需求,知识图谱中的自组织实体检索成为研究热点。给定知识图谱以及用户查询,实体检索的目标在于从给定的知识图谱中返回实体的排序列表。从匹配的角度来看,传统的实体检索模型大都将用户查询和实体统一映射到词的特征空间。这样做具有明显的缺点,例如,将同属 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合词典特征的Bi-LSTM-WCRF中文人名识别
摘要受限于标注语料的领域和规模以及类别不均衡,中文人名识别性能偏低。相比人名识别训练语料,人名词典获取较为容易,利用词典提升人名识别性能有待进一步研究。该文提取人名词典特征,融入到双向长短期记忆(Bi-LSTM)网络模型中,在损失函数中提高人名标签权重,设计加权条件随机场(WCRF)。从人名词典中获 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究
摘要文本阅读难度自动分级是让计算机能够根据文本特征自动判断文本所属的难度级别,该文以此为目标,提出一种基于多元语言特征与深度特征相融合的方法来实现对文本难度的自动分级。其中多元语言特征考虑了汉字、词汇、句子等不同的语言层面,同时涉及到频率、长度、复杂度、丰富度、连贯度等不同维度的信息。另一方面,该文 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中文矛盾语块数据集构建和边界识别研究
摘要文本矛盾是自然语言理解的一项基础性问题。目前的研究大多针对矛盾识别任务,而深入文本内部探究矛盾产生原因的工作较少,且缺乏专门的中文矛盾数据集。该文在前人矛盾研究基础上,提出矛盾语块的概念,将其划分为7种类型,并根据标注规范构建了包含16224条数据的中文矛盾语块(CCB)数据集。基于此数据集,利 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于Bi-GRU并包含注意力机制的文本数据真值发现
摘要针对传统真值发现算法无法直接应用于文本数据的问题,该文提出基于Bi-GRU并包含注意力机制的文本数据真值发现方法。根据文本答案的多因素性,词语使用的多样性与文本数据的稀疏性等特点,该文对用户答案进行细粒度划分,并利用Bi-GRU表征文本答案的语义信息,利用双层注意力机制分别学习用户答案关键词可靠 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于语言特征自动获取的反问句识别方法
摘要反问句是以疑问的形式表达强烈情感的修辞方式,对其有效识别可为自然语言处理中的情感分析任务提供技术支持。该文提出了一种基于语言特征自动获取的反问句识别方法。首先,利用标签注意机制,建立了一个数据驱动的特征抽取模型,用于获取与任务相关的词汇、句法结构、符号标记和话题等语言特征。其次,利用Bi-LST ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于循环卷积神经网络的藏文句类识别
摘要句子是语言的最小使用单位,句类识别是为了进一步细化句法和句义研究。由于藏文句尾通常没有特殊的标点符号来识别不同句类,因此这一藏文语言特性就变成了一大难题。该文提出了基于语境和功能特征为一体的句子用途分类方案。首先,该文介绍了文法中藏文句子分类及其特征。其次,收集了大量藏文句子并对其进行了人工标注 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02