一种面向高速度数据流的频繁模式挖掘算法
文献类型:会议
作者:杨慧[1]
机构:中国人民大学信息学院,北京,100872;清华大学经济管理学院,北京,100084
年:2007
会议名称:第二十四届中国数据库学术会议论文集中国计算机学会;海南大学;计算机研究与发展编辑部;计算机科学编辑部
页码范围:273-278
会议地点:海口
所属部门:信息学院
语言:中文
关键词:数据流 频繁模式 挖掘算法
摘要:数据流频繁模式挖掘是从实时、连续、有序的数据序列中寻找频繁模式的过程,以往的相关研究通常将该过程分为两个阶段:首先监测数据流中各模式的频率,由于数据流环境对空间与时间的限制,需要对监测模式进行剪裁,因而频率的计算和剪裁需要重复进行;当用户提交查询时,从监控的模式中筛选出满足要求的输出.现有研究都注重解决如何对观测对象进行剪裁,而事实上在计算模式频率时,数据项集中不同数据项间的组合使得频率计算非常耗时.因此,对于高速数据流,算法通常没有足够的时间来处理数据流中的每个事务,这会影响挖掘结果的正确性.针对这一问题提出了一种新的面向高速数据流的频繁模式挖掘算法Delay. 在Delay算法中将模式频率的统计延迟到第2阶段进行,第1阶段只记录"必要信息",这样大大提高了算法所能处理的数据流流动速度的上限.实验结果表明,算法在效率上优于已有算法,LossyCounting和FDPM,尤其是在处理长数据项集数据流时优势更为明显.
作者其他论文
Spark上的等值连接优化.卞昊穹;陈跃国;杜小勇,等.华东师范大学学报(自然科学版).2014,263-270,280.
投资者关系管理,大股东增持与公司绩效.黄幸娟;严子淳;杨慧.现代管理科学.2014,112-114.
中文产品评论结构化引擎.杨慧;刘红岩;何军.计算机与现代化.2014,1-7,15.
一种电子文件管理系统的自动化测试方法.朝乐门;杜小勇;薛四新.2014.
一种能力属性增强的Web服务信任评估模型.李海华;杜小勇;田萱.计算机学报.2008,31(8),1471-1477.