删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种基于概率主题模型的恶意代码特征提取方法

本站小编 Free考研考试/2022-01-01

刘亚姝1,2,王志海1,侯跃然3,严寒冰4
1(北京交通大学计算机与信息技术学院 北京 100044);2(北京建筑大学电气与信息工程学院 北京 100044);3(北京邮电大学网络技术研究院 北京 100876);4(国家计算机网络应急技术处理协调中心 北京 100029) (ly_s8020@163.com)
出版日期: 2019-11-12


基金资助:国家重点研发计划项目(2018YFB0803604,2018YFB0804704);国家自然科学基金项目(U1736218,61672086)

A Method of Extracting Malware Features Based on Probabilistic Topic Model

Liu Yashu1,2, Wang Zhihai1, Hou Yueran3, Yan Hanbing4
1(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044);2(School of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture, Beijing 100044);3(Institute of Network Technology, Beijing University of Posts and Telecommunications, Beijing 100876);4(National Computer Network Emergency Response Technical TeamCoordination Center of China, Beijing 100029)
Online: 2019-11-12







摘要/Abstract


摘要: 在当前复杂网络环境下,恶意代码通过各种方式快速传播,入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络和互联网用户造成了严重的安全威胁.传统检测方法难以检测未知恶意代码,而恶意代码变体的多样性和庞大数量也对未知恶意代码检测构成了巨大挑战.提出了一种无监督的恶意代码识别方法,通过分析反汇编PE文件给出汇编指令标准化规则,结合潜在狄立克雷分布(latent Dirichlet allocation, LDA)获得汇编指令中潜在的“文档-主题”、“主题-词”的分布.再以“主题分布”构造恶意样本特征,产生一个全新的恶意代码检测框架.结合“困惑度”和变化的步长给出了最优“主题”数目的快速评价和自动确定方法,解决了LDA模型中主题数目需要预先指定的问题.同时解析了“文档-主题”、“主题-词”聚集结果的语义可解释性,说明了该方法获得的样本特征具有潜在的语义.实验结果表明:与其他方法相比该方法具有相当的或更好的恶意代码鉴别能力,同时能够准确地识别恶意代码的新变体.






[1]辛宇,杨静,汤楚蘅, 葛斯乔. 基于局部语义聚类的语义重叠社区发现算法[J]. 计算机研究与发展, 2015, 52(7): 1510-1521.
[2]谭文堂 王桢文 殷风景 葛 斌 肖卫东. 一种面向多文本集的部分比较性LDA模型[J]. 计算机研究与发展, 2013, 50(9): 1943-1953.
[3]任昭春 马 军 陈竹敏. 基于动态主题建模的Web论坛文档摘要[J]. , 2012, 49(11): 2359-2367.
[4]陈允杰, 张建伟, 王顺凤, 詹天明,. 一种各向异性Wells算法脑核磁共振图像分割模型[J]. , 2010, 47(11): 1878-1885.
[5]王双成, 冷翠平, 曹 锋,. 小数据集贝叶斯网络多父节点参数的修复[J]. , 2009, 46(5): 787-793.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4040
相关话题/北京 网络 未知 计算机 数据