(交通数据分析与数据挖掘北京市重点实验室(北京交通大学) 北京 100044) (北京交通大学计算机与信息技术学院 北京 100044) (15120467@bjtu.edu.cn)
出版日期:
2018-01-01基金资助:
国家自然科学基金面上项目(61473030);数字出版国家重点实验室专项课题A New Documents Clustering Method Based on Frequent Itemsets
Zhang Xuesong, Jia Caiyan(Beijing Key Lab of Traffic Data Analysis and Mining (Beijing Jiaotong University), Beijing 100044) (School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044)
Online:
2018-01-01摘要/Abstract
摘要: 传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method, FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FIC算法不仅能降低文本表示的维度,还可以构建文本集中文本间的关联关系,使文本与文本间不再是独立的两两关系.实验中运用2个英文语料库Reuters-21578,20NewsGroup和1个中文语料库——搜狗新闻数据集来测试算法精度.实验表明:较传统的利用文本空间向量模型的聚类方法,该方法能够有效地降低文本表示的维度,并且,相比于常见的基于频繁词集的聚类方法能获得更好的聚类效果.
参考文献
相关文章 15
[1] | 郑文萍,吴志康,杨贵. 一种基于局部中心性的网络关键节点识别算法[J]. 计算机研究与发展, 2019, 56(9): 1872-1880. |
[2] | 郑文萍,车晨浩,钱宇华,王杰. 一种基于标签传播的两阶段社区发现算法[J]. 计算机研究与发展, 2018, 55(9): 1959-1971. |
[3] | 潘伟丰,姜波,李兵,胡博,宋贝贝. 基于组合历史的交互式服务推荐方法[J]. 计算机研究与发展, 2018, 55(3): 613-628. |
[4] | 朱子青,曹玖新,周涛,胥帅,马卓,刘波. 基于多维特征分析的移动社会网络消息传输[J]. 计算机研究与发展, 2017, 54(2): 369-381. |
[5] | 陈俊宇,周刚,南煜,曾琦. 一种半监督的局部扩展式重叠社区发现方法[J]. 计算机研究与发展, 2016, 53(6): 1376-1388. |
[6] | 王莹,于海,朱志良. 基于软件节点重要性的集成测试序列生成方法[J]. 计算机研究与发展, 2016, 53(3): 517-530. |
[7] | 潘伟丰,李兵,周晓燕,何鹏. 基于错误传播网络的回归测试用例排序方法[J]. 计算机研究与发展, 2016, 53(3): 550-558. |
[8] | 李全刚,刘峤,秦志光. 基于主题模型的通信网络建模与仿真[J]. 计算机研究与发展, 2016, 53(1): 206-215. |
[9] | 刘志宏,曾勇,吴宏亮,马建峰. 复杂网络的影响可控性[J]. 计算机研究与发展, 2014, 51(12): 2788-2796. |
[10] | 茹立云,李智超,马少平. 搜索引擎索引网页集合选取方法研究[J]. 计算机研究与发展, 2014, 51(10): 2239-2247. |
[11] | 葛 新, 赵 海, 张 君,. 网络度相关及其传播特征研究[J]. , 2013, 50(4): 741-749. |
[12] | 刘大有, 金 弟, 何东晓, 黄 晶, 杨建宁, 杨 博,. 复杂网络社区挖掘综述[J]. , 2013, 50(10): 2140-2154. |
[13] | 郭 迟, 王丽娜, 关怡萍, 张笑盈,. 一种基于动态偏好扫描的网络免疫策略[J]. , 2012, 49(4): 717-724. |
[14] | 邓小龙 王 柏 吴 斌 杨胜琦. 基于信息熵的复杂网络社团划分建模和验证[J]. , 2012, 49(4): 725-734. |
[15] | 郭 迟, 王丽娜, 李 玉, 周芙蓉,. 基于负荷-容量模型的网络相继故障研究[J]. , 2012, 49(12): 2529-2538. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3607