一种基于动态均分的最大信息系数改进算法
孟燕霞1(),郭禹辰1,王莉2,*()1. 太原理工大学信息与计算机学院, 山西 晋中 030600
2. 太原理工大学大数据学院, 山西 晋中 030600
收稿日期:
2018-05-25出版日期:
2019-10-20发布日期:
2019-10-18通讯作者:
王莉E-mail:2111428372@qq.com;462672475@qq.com作者简介:
孟燕霞(1993—),女,山西忻州人,硕士研究生,主要研究方向为数据挖掘. E-mail:基金资助:
国家自然基金项目(61872260);山西省重点研发计划项目(201703D421013)An improved algorithm of maximal information coefficient based on dynamic equipartition
Yanxia MENG1(),Yuchen GUO1,Li WANG2,*()1. College of Information and Computer, Taiyuan University of Technology, Jinzhong 030600, Shanxi, China
2. College of Data Science, Taiyuan University of Technology, Jinzhong 030600, Shanxi, China
Received:
2018-05-25Online:
2019-10-20Published:
2019-10-18Contact:
Li WANG E-mail:2111428372@qq.com;462672475@qq.comSupported by:
国家自然基金项目(61872260);山西省重点研发计划项目(201703D421013)摘要/Abstract
摘要: 针对最大信息系数(maximal information coefficient, MIC)算法计算时间复杂度较高的问题,提出一种基于动态均分的最大信息系数(dynamic equpartition of maximal information coefficient, DE-MIC)改进算法,利用动态均分对两变量在网格中的散点图进行不断迭代寻优,通过对获得的互信息进行正则化得到最优的DE-MIC值,同时利用标准的可移植操作系统接口(portable operating system interface of UNIX, POSIX)对数据集进行多线程计算,使算法在大规模数据集上的计算效率更高。经过在多个数据集上与快速最大信息系数算法(rapid computation of the maximal information coefficient, RapidMIC)比较, DE-MIC算法在保持原有最大信息系数算法普适性和均匀性的前提下,计算速度更快且效率更佳。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1869