删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于散度的网络流概念漂移分类方法

本站小编 Free考研考试/2022-01-01

程光1,2,3,钱德鑫1,2,3,郭建伟4,史海滨1,2,3,吴桦1,2,3,赵玉宇1,2,3
1(东南大学网络空间安全学院 南京 211189);2(教育部计算机网络和信息集成重点实验室(东南大学) 南京 211189);3(江苏省计算机网络技术重点实验室(东南大学) 南京 211189);4(华为技术有限公司西安研究所 西安 710075) (gcheng@njnet.edu.cn)
出版日期: 2020-12-01


基金资助:国家重点研发计划项目(2018YFB1800602,2017YFB0801703);教育部-中国移动科研基金项目(MCM20180506);国家自然科学基金项目(61602114);赛尔网络下一代互联网技术创新项目(NGIICS20190101,NGII20170406)

A Classification Approach Based on Divergence for Network Traffic in Presence of Concept Drift

Cheng Guang1,2,3, Qian Dexin1,2,3, Guo Jianwei4, Shi Haibin1,2,3, Hua1,2,3, Zhao Yuyu1,2,3
1(School of Cyber Science and Engineering, Southeast University, Nanjing 211189);2(Key Laboratory of Computer Network and Information Integration (Southeast University), Ministry of Education, Nanjing 211189);3(Jiangsu Provincial Key Laboratory of Computer Network Technology (Southeast University), Nanjing 211189);4(Xi’an Research Institute, Huawei Technologies Co., Ltd., Xi’an 710075)
Online: 2020-12-01


Supported by:This work was supported by the National Key Research and Development Program of China (2018YFB1800602, 2017YFB0801703), the Ministry of Education-China Mobile Research Fund Project (MCM20180506), the National Natural Science Foundation of China (61602114), and the CERNET Innovation Project (NGIICS20190101, NGII20170406).




摘要/Abstract


摘要: 网络流量特征分布的动态变化产生概念漂移问题,造成基于机器学习的网络流量分类模型精度下降.定期更新分类模型耗时且无法保证分类模型的泛化能力.基于此,提出一种基于散度的网络流概念漂移分类方法(ensemble classification based on divergence detection, ECDD),采用双层窗口机制,从信息熵的角度出发,根据流量特征分布的JS散度,记为JSD(Jensen-Shannon divergence)来度量滑动窗口内数据分布的差异,从而检测概念漂移.借鉴增量集成学习的思想,检测到漂移时对于新样本重新训练出新的分类器,之后通过分类器权值排序,保留性能较高的分类器,加权集成分类结果对样本进行分类.抓取常见的网络应用流量,根据应用特征分布的不同构建概念漂移数据集,将该方法与常见的概念漂移检测方法进行实验对比,实验结果表明:该方法可以有效地检测概念漂移和更新分类器,表现出较好的分类性能.






[1]吴宗友, 白昆龙, 杨林蕊, 王仪琦, 田英杰. 电子病历文本挖掘研究综述[J]. 计算机研究与发展, 2021, 58(3): 513-527.
[2]陈晋音, 陈奕芃, 陈一鸣, 郑海斌, 纪守领, 时杰, 程瑶. 面向深度学习的公平性研究综述[J]. 计算机研究与发展, 2021, 58(2): 264-280.
[3]于畅, 王雅文, 林欢, 宫云战. 基于故障检测上下文的等价变异体识别算法[J]. 计算机研究与发展, 2021, 58(1): 83-97.
[4]李双峰. TensorFlow Lite:端侧机器学习框架[J]. 计算机研究与发展, 2020, 57(9): 1839-1853.
[5]陈珂锐, 孟小峰. 机器学习的可解释性[J]. 计算机研究与发展, 2020, 57(9): 1971-1986.
[6]丁成诚, 陶蔚, 陶卿. 一种三参数统一化动量方法及其最优收敛速率[J]. 计算机研究与发展, 2020, 57(8): 1571-1580.
[7]贺一笑, 庞明, 姜远. 蒙德里安深度森林[J]. 计算机研究与发展, 2020, 57(8): 1594-1604.
[8]李冬梅, 张扬, 李东远, 林丹琼. 实体关系抽取方法研究综述[J]. 计算机研究与发展, 2020, 57(7): 1424-1448.
[9]陶涛, 孙玉娥, 陈冬梅, 杨文建, 黄河, 罗永龙. 一种基于智能手机传感器数据的地图轮廓生成方法[J]. 计算机研究与发展, 2020, 57(7): 1490-1507.
[10]蓝天, 彭川, 李森, 叶文政, 李萌, 惠国强, 吕忆蓝, 钱宇欣, 刘峤. 单声道语音降噪与去混响研究综述[J]. 计算机研究与发展, 2020, 57(5): 928-953.
[11]刘辰屹, 徐明伟, 耿男, 张翔. 基于机器学习的智能路由算法综述[J]. 计算机研究与发展, 2020, 57(4): 671-687.
[12]周文, 张世琨, 丁勇, 陈曦. 面向低维工控网数据集的对抗样本攻击分析[J]. 计算机研究与发展, 2020, 57(4): 736-745.
[13]王艳, 李念爽, 王希龄, 钟凤艳. 编码技术改进大规模分布式机器学习性能综述[J]. 计算机研究与发展, 2020, 57(3): 542-561.
[14]刘俊旭, 孟小峰. 机器学习的隐私保护研究综述[J]. 计算机研究与发展, 2020, 57(2): 346-362.
[15]魏立斐, 陈聪聪, 张蕾, 李梦思, 陈玉娇, 王勤. 机器学习的安全问题及隐私保护[J]. 计算机研究与发展, 2020, 57(10): 2066-2085.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4319
相关话题/计算机 数据 网络 东南大学 信息