1(燕山大学信息科学与工程学院 河北秦皇岛 066004);2(河北省软件工程重点实验室(燕山大学) 河北秦皇岛 066004);3(中国五洲工程设计研究院 北京 100053) (jdren@ysu.edu.cn)
出版日期:
2021-11-01基金资助:
国家自然科学基金项目(61802332,61807028,61772449);燕山大学博士基金项目(BL18012)InterDroid: An Interpretable Android Malware Detection Method for Conceptual Drift
Zhang Bing1,2, Wen Zheng1,2, Wei Xiaoyu3, Ren Jiadong1,21(School of Information Science and Engineering, Yanshan University, Qinhuangdao, Hebei 066004);2(Key Laboratory of Software Engineering of Hebei Province(Yanshan University), Qinhuangdao, Hebei 066004);3(China Wuzhou Engineering Group, Beijing 100053)
Online:
2021-11-01Supported by:
This work was supported by the National Natural Science Foundation of China (61802332, 61807028, 61772449) and the Doctoral Foundation Program of Yanshan University (BL18012).摘要/Abstract
摘要: 针对Android恶意软件检测存在特征引入过程主观性高、特征选择过程可解释性差、训练模型检测效果不具备时间稳定性的问题,提出了一种面向概念漂移的可解释性Android恶意软件检测方法InterDroid,该方法首先通过高质量的人工Android恶意软件分析报告引入权限、API包名、意图、Dalvik字节码4种特征.并通过自动化机器学习算法TPOT(tree-based tipeline optimization tool)获得InterDroid训练及对比算法,从而摒弃传统方法中繁复的模型选择与参数调整过程.其后,融入模型解释算法SHAP(shapley additive explanations)改进传统的特征包装方法,从而获得对分类结果具有高贡献度的特征组合用于检测模型训练.最后,通过曼-惠特尼U(Mann-Whitney U, MWU)与机器学习模型的双重检验证明概念漂移现象在Android恶意软件检测中的存在性.并基于联合分布适配(joint distribution adaptation, JDA)算法提高检测模型对新时期Android恶意软件的检测准确率.实验表明:InterDroid筛选出的特征组合具备稳定性与可解释性.同时,InterDroid中的特征迁移模块可将自身对2019年、2020年新兴Android恶意软件的检测准确率分别提高46%,44%.
参考文献
相关文章 10
[1] | 陈珂锐, 孟小峰. 机器学习的可解释性[J]. 计算机研究与发展, 2020, 57(9): 1971-1986. |
[2] | 成科扬, 王宁, 师文喜, 詹永照. 深度学习可解释性研究进展[J]. 计算机研究与发展, 2020, 57(6): 1208-1217. |
[3] | 程光, 钱德鑫, 郭建伟, 史海滨, 吴桦, 赵玉宇. 基于散度的网络流概念漂移分类方法[J]. 计算机研究与发展, 2020, 57(12): 2673-2682. |
[4] | 纪守领,李进锋,杜天宇,李博. 机器学习模型可解释性方法、应用与安全研究综述[J]. 计算机研究与发展, 2019, 56(10): 2071-2096. |
[5] | 文益民,唐诗淇,冯超,高凯. 基于在线迁移学习的重现概念漂移数据流分类[J]. 计算机研究与发展, 2016, 53(8): 1781-1791. |
[6] | 邓大勇,苗夺谦,黄厚宽. 信息表中概念漂移与不确定性分析[J]. 计算机研究与发展, 2016, 53(11): 2607-2612. |
[7] | 邓大勇,徐小玉,黄厚宽. 基于并行约简的概念漂移探测[J]. 计算机研究与发展, 2015, 52(5): 1071-1079. |
[8] | 郭躬德 李 南 陈黎飞. 一种基于混合模型的数据流概念漂移检测算法[J]. 计算机研究与发展, 2014, 51(4): 731-742. |
[9] | 辛轶, 郭躬德, 陈黎飞, 毕亚新,. IKnnM-DHecoc:一种解决概念漂移问题的方法[J]. , 2011, 48(4): 592-601. |
[10] | 王 涛, 李舟军, 颜跃进, 陈火旺,. 数据流挖掘分类技术综述[J]. , 2007, 44(11): 1809-1815. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4528