删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种基于频繁词集表示的新文本聚类方法

本站小编 Free考研考试/2022-01-01

张雪松,贾彩燕
(交通数据分析与数据挖掘北京市重点实验室(北京交通大学) 北京 100044) (北京交通大学计算机与信息技术学院 北京 100044) (15120467@bjtu.edu.cn)
出版日期: 2018-01-01


基金资助:国家自然科学基金面上项目(61473030);数字出版国家重点实验室专项课题

A New Documents Clustering Method Based on Frequent Itemsets

Zhang Xuesong, Jia Caiyan
(Beijing Key Lab of Traffic Data Analysis and Mining (Beijing Jiaotong University), Beijing 100044) (School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044)
Online: 2018-01-01







摘要/Abstract


摘要: 传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method, FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FIC算法不仅能降低文本表示的维度,还可以构建文本集中文本间的关联关系,使文本与文本间不再是独立的两两关系.实验中运用2个英文语料库Reuters-21578,20NewsGroup和1个中文语料库——搜狗新闻数据集来测试算法精度.实验表明:较传统的利用文本空间向量模型的聚类方法,该方法能够有效地降低文本表示的维度,并且,相比于常见的基于频繁词集的聚类方法能获得更好的聚类效果.






[1]郑文萍,吴志康,杨贵. 一种基于局部中心性的网络关键节点识别算法[J]. 计算机研究与发展, 2019, 56(9): 1872-1880.
[2]郑文萍,车晨浩,钱宇华,王杰. 一种基于标签传播的两阶段社区发现算法[J]. 计算机研究与发展, 2018, 55(9): 1959-1971.
[3]潘伟丰,姜波,李兵,胡博,宋贝贝. 基于组合历史的交互式服务推荐方法[J]. 计算机研究与发展, 2018, 55(3): 613-628.
[4]朱子青,曹玖新,周涛,胥帅,马卓,刘波. 基于多维特征分析的移动社会网络消息传输[J]. 计算机研究与发展, 2017, 54(2): 369-381.
[5]陈俊宇,周刚,南煜,曾琦. 一种半监督的局部扩展式重叠社区发现方法[J]. 计算机研究与发展, 2016, 53(6): 1376-1388.
[6]王莹,于海,朱志良. 基于软件节点重要性的集成测试序列生成方法[J]. 计算机研究与发展, 2016, 53(3): 517-530.
[7]潘伟丰,李兵,周晓燕,何鹏. 基于错误传播网络的回归测试用例排序方法[J]. 计算机研究与发展, 2016, 53(3): 550-558.
[8]李全刚,刘峤,秦志光. 基于主题模型的通信网络建模与仿真[J]. 计算机研究与发展, 2016, 53(1): 206-215.
[9]刘志宏,曾勇,吴宏亮,马建峰. 复杂网络的影响可控性[J]. 计算机研究与发展, 2014, 51(12): 2788-2796.
[10]茹立云,李智超,马少平. 搜索引擎索引网页集合选取方法研究[J]. 计算机研究与发展, 2014, 51(10): 2239-2247.
[11]葛 新, 赵 海, 张 君,. 网络度相关及其传播特征研究[J]. , 2013, 50(4): 741-749.
[12]刘大有, 金 弟, 何东晓, 黄 晶, 杨建宁, 杨 博,. 复杂网络社区挖掘综述[J]. , 2013, 50(10): 2140-2154.
[13]郭 迟, 王丽娜, 关怡萍, 张笑盈,. 一种基于动态偏好扫描的网络免疫策略[J]. , 2012, 49(4): 717-724.
[14]邓小龙 王 柏 吴 斌 杨胜琦. 基于信息熵的复杂网络社团划分建模和验证[J]. , 2012, 49(4): 725-734.
[15]郭 迟, 王丽娜, 李 玉, 周芙蓉,. 基于负荷-容量模型的网络相继故障研究[J]. , 2012, 49(12): 2529-2538.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3607
相关话题/网络 计算机 社区 测试 传播

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于稀疏自学习卷积神经网络的句子分类模型
    高云龙1,2,左万利1,2,王英1,2,王鑫2,31(吉林大学计算机科学与技术学院长春130012);2(符号计算与知识工程教育部重点实验室(吉林大学)长春130012);3(长春工程学院计算机技术与工程学院长春130012)(1458299660@qq.com)出版日期:2018-01-01基金资 ...
    本站小编 Free考研考试 2022-01-01
  • 基于主题增强卷积神经网络的用户兴趣识别
    杜雨萌,张伟男,刘挺(哈尔滨工业大学社会计算与信息检索研究中心哈尔滨150001)(ymdu@ir.hit.edu.cn)出版日期:2018-01-01基金资助:国家“九七三”重点基础研究发展计划基金项目(2014CB340503);国家自然科学基金项目(61472107,61502120)Topi ...
    本站小编 Free考研考试 2022-01-01
  • SDN网络拓扑污染攻击防御机制研究
    郑正1,徐明伟2,李琦1,张云11(清华大学深圳研究生院广东深圳518055);2(清华大学计算机科学与技术系北京100084)(13222026288@163.com)出版日期:2018-01-01基金资助:国家自然科学基金项目(61572278,61625203);国家重点研发计划项目(2016 ...
    本站小编 Free考研考试 2022-01-01
  • 薛勇彪研究组合作揭示麦类特异转座子重塑小麦环境适应的调控网络
    转座子(TransposableElement,TE)是基因组中可移动的DNA元件,20世纪40年代由BarbaraMcClintock首次报道。小麦族物种的转座子呈现爆发性增长,基因组高达3-16Gb,85%以上由TE组成,而与之亲缘关系密切的二穗短柄草基因组只有272Mb。可以说小麦的基因是“散 ...
    本站小编 Free考研考试 2022-01-01
  • 田志喜研究组在大豆茸毛密度的遗传网络调控研究取得重要进展
    大豆驯化起源于中国,随后广泛传播于世界各地,为人类提供了主要的植物油和蛋白资源,是世界性的重要粮食经济作物。表皮毛是植物表皮细胞分化形成的一种特殊的细胞形态,广泛分布于植物的叶片、茎秆以及花萼等地上部器官的表面。作为植物应对外界环境(生物或者非生物胁迫)的第一道防线,表皮毛在植物的生长发育以及抗逆中 ...
    本站小编 Free考研考试 2022-01-01
  • 孟文翔研究组在微管网络调控神经元极化机制研究中取得新进展
    中国科学院遗传与发育生物学研究所孟文翔研究组首次报道不对称微管网络分布是促进神经元的极性建立的重要因素。在神经系统的发育过程中,神经元的极性建立和迁移占据着重要的作用。皮层神经元诞生于脑室区并迁移至特定的细胞层并形成轴突和树突,建立突触连接,最终形成神经环路以行使信号传递的功能。微管作为一种细胞骨架 ...
    本站小编 Free考研考试 2022-01-01
  • 第八届“数学、计算机与生命科学交叉研究”青年论坛—云论坛成功举行
    2021年5月15日,第八届“数学、计算机与生命科学交叉研究”青年****论坛成功召开。该论坛由中国科学院数学与系统科学研究院/国家数学与交叉科学中心张世华研究员和中国科学院遗传与发育生物学研究所王秀杰研究员共同发起和组织,论坛的指导委员会包括陈润生院士、郭雷院士和马志明院士等领域内资深专家。论坛自 ...
    本站小编 Free考研考试 2022-01-01
  • 人格特质及脑功能连接对社交网络的影响
    李依蔓1,3,刘程1,庄恺祥1,霍腾宾1,徐鹏飞5,罗跃嘉3,4,5,6,邱江1,2()1西南大学心理学部,重庆4007152认知与人格教育部重点实验室,重庆4007153深圳大学心理学院,深圳5180604深圳大学脑疾病与认知科学研究中心,深圳5180605北京师范大学心理学部,北京1008756 ...
    本站小编 Free考研考试 2022-01-01
  • 网络突发事件中的负性偏向:产生与表现
    张梅1,丁书恒1,刘国芳2,徐亚珍1,傅鑫媛1,张巍3,辛自强4()1中央财经大学社会与心理学院,北京1000812上海海事大学经济管理学院,上海2013063中央财经大学信息学院,北京1000814中国人民大学心理学系,北京100872收稿日期:2021-02-04出版日期:2021-12-25发 ...
    本站小编 Free考研考试 2022-01-01
  • 两种新的多维计算机化分类测验终止规则
    任赫,陈平()北京师范大学中国基础教育质量监测协同创新中心,北京100875收稿日期:2020-06-04出版日期:2021-09-25发布日期:2021-07-22通讯作者:陈平E-mail:pchen@bnu.edu.cn基金资助:国家自然科学基金面上项目(32071092);中国基础教育质量监 ...
    本站小编 Free考研考试 2022-01-01