(北方民族大学计算机科学与工程学院 银川 750021) (734811467@qq.com)
出版日期:
2021-11-01基金资助:
国家自然科学基金项目(62062004);宁夏自然科学基金项目(2020AAC03216);北方民族大学研究生创新项目(YCX20077)Closed High Utility Itemsets Mining over Data Stream Based on Sliding Window Model
Cheng Haodong, Han Meng, Zhang Ni, Li Xiaojuan, Wang Le(College of Computer Science and Engineering, North Minzu University, Yinchuan 750021)
Online:
2021-11-01Supported by:
This work was supported by the National Natural Science Foundation of China (62062004), the Natural Science Foundation of Ningxia Hui Autonomous Region of China (2020AAC03216), and the Graduate Innovation Project of North Minzu University (YCX20077).摘要/Abstract
摘要: 从数据流中挖掘高效用项集是一项具有挑战性的任务,因为传入的数据必须在时间和存储内存约束下进行实时处理.数据流挖掘通常会产生大量冗余的项集,为了减少这些无用的项集数量且保证无损压缩,需要挖掘闭合项集,它可以比全集高效用项集的集合小几个数量级.为了解决以上问题,提出一种基于滑动窗口模型的数据流闭合高效用项集挖掘(closed high utility itemsets mining over data stream based on sliding window model, CHUI_DS)算法. 在CHUI_DS中设计了一种新的效用列表结构,该结构在提升批次插入和删除的速度方面非常有效.此外,应用修剪策略来改进闭合项集挖掘过程,消除潜在的低效用候选对象.对真实数据集和合成数据集进行的广泛实验评估显示了该算法的效率以及可行性.就速度而言,它优于先前提出的主要以批处理模式运行的算法. 且它适用于不同大小的滑动窗口,在事务数量等方面具有较强的扩展性.
参考文献
相关文章 15
[1] | 章静蕾,石海龙,崔莉. 基于出行方式及语义轨迹的位置预测模型[J]. 计算机研究与发展, 2019, 56(7): 1357-1369. |
[2] | 冯馨玥,杨秋松,石琳,王青,李明树. 基于动态策略学习的关键内存数据访问监控[J]. 计算机研究与发展, 2019, 56(7): 1470-1487. |
[3] | 王玲,孟建瑶. 基于特征变权的动态模糊特征选择算法[J]. 计算机研究与发展, 2018, 55(5): 893-907. |
[4] | 张珩, 张立波, 武延军. 基于Multi-GPU平台的大规模图数据处理[J]. 计算机研究与发展, 2018, 55(2): 273-288. |
[5] | 季一木,张永潘,郎贤波,张殿超,王汝传. 面向流数据的决策树分类算法并行化[J]. 计算机研究与发展, 2017, 54(9): 1945-1957. |
[6] | 韩萌, 王志海, 原继东. 基于高斯函数的衰减因子设置方法研究[J]. 计算机研究与发展, 2015, 52(12): 2834-2843. |
[7] | 张啸剑, 王 淼, 孟小峰,. 差分隐私保护下一种精确挖掘top-k频繁模式方法[J]. 计算机研究与发展, 2014, 51(1): 104-114. |
[8] | 张明卫, 张 斌, 张锡哲, 朱志良,. 一种基于划分的组合服务选取方法[J]. , 2012, 49(5): 1005-1017. |
[9] | 廖国琼, 吴凌琴, 万常选,. 基于概率衰减窗口模型的不确定数据流频繁模式挖掘[J]. , 2012, 49(5): 1105-1115. |
[10] | 王 爽, 王国仁,. 基于滑动窗口的Top-K概率频繁项查询算法研究[J]. , 2012, 49(10): 2189-2197. |
[11] | 张 丽 邹 鹏 贾 焰 田 李. 数据流上连续动态skyline查询研究[J]. , 2011, 48(1): 77-85. |
[12] | 韩东红, 公丕臻, 肖 川, 周 锐,. 数据流滑动窗口连接的卸载策略研究[J]. , 2011, 48(1): 103-109. |
[13] | 童咏昕, 张媛媛, 袁 玫, 马世龙, 余 丹, 赵 莉,. 一种挖掘压缩序列模式的有效算法[J]. , 2010, 47(1): 72-80. |
[14] | 田志宏, 张永铮, 张伟哲, 李 洋, 叶建伟, . 基于模式挖掘和聚类分析的自适应告警关联[J]. , 2009, 46(8): 1304-1315. |
[15] | 田 李 王 乐 李爱平 邹 鹏 贾 焰. 滑动窗口数据流上多极值查询资源共享策略研究[J]. , 2008, 45(3): 548-556. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4531