摘要为从大量的复杂非规范网页结构中自动抽取出新闻标题,该文提出一种基于密度和文本特征的新闻标题抽取算法(title extraction with density and text-features, TEDT)。主要通过融合网页文本密度分布和语言特征的语料判定模型,将网页划分为语料区和标题候选区,选取语料后通过TextRank算法计算对应的key-value权重集合,最后采用改进的相似度计算方法从标题候选区抽取新闻标题。该算法能有效划分语料和标题区域,降低网页噪声干扰,准确抽取出新闻标题。实验结果表明,TEDT的准确率和召回率均优于传统的基于规则和相似度的新闻标题抽取算法,证明了TEDT不仅对主流新闻网站有效,而且对复杂非规范网页也广泛适用。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2651
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于密度及文本特征的新闻标题抽取算法
本站小编 Free考研考试/2022-01-02
相关话题/计算 结构 语言 实验 干扰
面向语言信息处理的藏语短语及其分类方法研究
摘要短语作为语言分析的一个层次,占有十分重要的位置。有效的短语分析对降低其后句法分析的难度,缩小句法分析器的搜索空间,提高机器翻译的翻译正确率是很有帮助的。而目前面向信息处理的藏语短语的研究刚刚起步,有待于进一步发展。该文在藏语短语与藏语句子的界线研究的基础上,根据藏语信息处理的特点和要求,按照语法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于门控卷积机制与层次注意力机制的多语义词向量计算方法
摘要现有的将词映射为单一向量的方法没有考虑词的多义性,从而会引发歧义问题;映射为多个向量或高斯分布的方法虽然考虑了词的多义性,但或多或少没能有效利用词序、句法结构和词间距离等信息对词在某一固定语境中语义表达的影响。综合考虑以上存在的问题,该文提出了一种基于非残差块封装的门控卷积机制加以层次注意力机制 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据并行的神经语言模型多卡训练分析
摘要数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIATITANX(Pascal)GPU设备在循环 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02结合短语结构句法的语义角色标注
摘要该文提出一种结合短语结构句法的语义角色标注方法。结合短语结构句法对句子进行剪枝、子句抽取处理,然后,对处理过的句子进行语义角色分析并还原。最后,结合短语树对还原后的论元边界进行修正。其中,剪枝包括并列结构、插入语的剪枝,子句抽取针对不同形式的子句有不同的处理方式。边界修正主要是针对某些类型论元进 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02交互式问答的关系结构体系及标注
摘要交互式问答是一种对话式的、连续的、前后关联的信息交互形式,交互式问答的关系结构直接体现了交互式场景在不同语言层面上的上下文关联。该文归纳分析了交互式问答中的对话行为和语句关系,在此基础上提出了对应的关系结构体系;为了验证类别体系的合理性,对真实环境中的交互式问答语料进行了对话行为标注和上下文语句 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02中亚语言自然语言处理综述
摘要该文对中亚地区属于同一个语族的土耳其语、哈萨克语等诸语言的自然语言处理现状进行了综述。首先分别回顾土耳其语、哈萨克语和其他中亚语言在词法分析、句法分析、命名实体识别、机器翻译方面的研究进展,随后讨论了与具体语言无关的黏着语词法分析方面的研究情况,最后指出国内外中亚诸语言处理自然语言领域中所面临的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02短语结构树库向句式结构树库的自动转换研究
摘要该文从短语结构和句式结构的区别与联系入手,设计了一种将短语结构自动转换为句式结构的算法。并以清华短语结构树库(TCT)为测试语料,实现了将大规模短语结构语料向句式结构语料的转换。最后,搭建了一套可扩展的可视化系统,用于不同句法结构语料的可视化查看。这一研究不仅实现了两种结构之间的初步转换,而且极 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向情感聚类的文本相似度计算方法研究
摘要在文本情感分析时,使用无监督的聚类方法,可以有效节省人力和数据资源,但同时也面临聚类精度不高的问题。相似性是文本聚类的主要依据,该文从文本相似度计算的角度,针对情感聚类中文本—特征向量的高维和稀疏问题,以及对评论文本潜在情感因素的表示问题,提出一种基于子空间的文本语义相似度计算方法(RESS)。 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02向量模型和多源词汇分类体系相结合的词语相似性计算
摘要现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上的语义,而词汇分类体系方法则存在构建代价大,并且在一定程度上还不够完善的问题。该文提出一种向量模型与多源词汇分类体系相结合的词语相似性计 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02分层递阶的网络结构洞占据者挖掘及分析
摘要结构洞是在社会网络信息传播中占据重要位置的一类关键节点。据研究,5%的结构洞控制着50%的信息传播。****们研究了单一粒度网络下结构洞的挖掘方法及分析,然而很多网络存在分层递阶的多粒度结构特性,对分层递阶网络的结构洞挖掘和分析具有现实意义。因此,该文提出了一种分层递阶网络的多粒度结构洞挖掘方法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02