删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

S-SimRank:结合内容和链接信息的文档相似度计算方法

中国人民大学 辅仁网/2017-07-01

文献详情
S-SimRank:结合内容和链接信息的文档相似度计算方法
外文标题:S-SimRank: Combining Content and Link Information to Cluster Papers Effectively and Efficiently
文献类型:期刊
作者:蔡元哲[1]李佩[2]刘红岩[3]何军[4]杜小勇[5]
机构:中国人民大学教育部数据工程和知识工程重点实验室,北京,100872;中国人民大学信息学院,北京,100872;清华大学管理科学与工程系,北京,100084

年:2009
期刊名称:计算机科学与探索
卷:3
期:4
页码范围:378-391
增刊:增刊
所属部门:信息学院
语言:中文
ISSN:1673-9418
链接地址:http://d.g.wanfangdata.com.cn/Periodical_jsjkxyts200904005.aspx
DOI:10.3778/j.issn.1673-9418.2009.04.005
基金:国家自然科学基金; The preliminary version of this paper wag first appeared in Proceedings of 4th International Conference Oil Advanced Data Mining and Applications ,Chengdu,China,October,2008
关键词:连接分析;相似度计算;文本分析
摘要:文档的内容分析和连接分析是计算文档相似度的两种方法.连接分析能够发现文档之间的隐含关系,但是,由于文档之间的噪声的存在,这种方法很难得到精确的结果.为了解决这个问题,提出了一个新的算法一S-SimRank(Star-SimRank),有效地将文档的内容信息和连接信息结合在一起从而提高了文档相似度计算的准确性.S-Simrank算法在ACM数据集上无论是准确性和效率都比其他算法有了很大地提高.最后,给出了S-SimRank的收敛性的数学证明.
作者其他论文



Spark上的等值连接优化.卞昊穹;陈跃国;杜小勇,等.华东师范大学学报(自然科学版).2014,263-270,280.
中文产品评论结构化引擎.杨慧;刘红岩;何军.计算机与现代化.2014,1-7,15.
一种电子文件管理系统的自动化测试方法.朝乐门;杜小勇;薛四新.2014.
一种能力属性增强的Web服务信任评估模型.李海华;杜小勇;田萱.计算机学报.2008,31(8),1471-1477.
基于划分的集合相似连接.荣垂田;徐天任;杜小勇.计算机研究与发展.2012,49(10),2066-2076.

相关话题/北京 计算机 计算 信息 中国人民大学