基于维基百科的中文文本层次路径生成研究
外文标题:Generating Hierarchical Paths of Chinese Text from Wikipedia
文献类型:期刊
作者:夏天[1]
机构:[1][夏天]中国人民大学.数据工程与知识工程教育部重点实验室
年:2016
期刊名称:现代图书情报技术
期:3
页码范围:25-32
增刊:正刊
收录情况:CSSCI(11G0302016030004)
所属部门:数据工程与知识工程教育部重点实验室
语言:中文
关键词:语义路径;显性语义分析;层次分类;维基百科
摘要:【目的】利用维基百科知识库生成自由文本的层次语义路径。【方法】针对维基百科的中文导出数据,构建层次结构的树状图;进而通过显性语义分析将自由文本表示为文章概念向量,通过文章–类别关联关系将文本映射到树状图中构成种子类别节点,再通过种子节点开始的信息扩散和自顶向下的路径选择与优化,生成层次路径。【结果】首条层次路径的平均相关度在测试集上达到54.10%,前20条路径整体上按相关度降序排序。【局限】未分析显性概念向量在保留不同概念数量时对生成路径质量的影响。【结论】基于维基百科知识库所生成的层次路径结果能够反映文本的主要语义信息。
作者其他论文
基于内容代表性评价的关键帧抽取.顾益军;解易;夏天.计算机科学.2014,41(8),286-288,315.
中国政府网站移动浏览器兼容性研究.夏天;陈杰;魏小贞,等.现代情报.2014,34(11),62-69.
中心网页中主题网页链接的自动抽取.夏天.山东大学学报:理学版.2012,47(5),25-31.
基于扩展标记树的网页正文抽取.夏天.广西师范大学学报(自然科学版).2011,29(1),133-137.
Nutch的插件机制分析.夏天.广西师范大学学报(自然科学版).2010,28(1),105-108.