(东北大学计算机科学与工程学院 沈阳 110819) (zhaoyuhai@mail.neu.edu.cn)
出版日期:
2019-05-01基金资助:
国家重点研发计划项目(2018YFB1004402);国家自然科学基金面上项目(61772124)A Parallel Algorithm for Mining Interactive Features from Large Scale Sequences
Zhao Yuhai, Yin Ying, Li Yuan, Wang Siyao, Wang Guoren(School of Computer Science and Engineering, Northeastern University, Shenyang 110819)
Online:
2019-05-01摘要/Abstract
摘要: 序列是一种重要的数据类型,在诸多应用领域广泛存在.基于序列的特征选择具有广阔的现实应用场景.交互特征是指一组整体具有显著强于单独个体与目标相关性的特征集合.从大规模序列中挖掘交互特征面临着位点的“组合爆炸”问题,计算挑战性极大.针对该问题,以生物领域高通量测序数据为背景,提出了一种新的基于并行处理和演化计算的高阶交互特征挖掘算法.位点数是制约交互作用挖掘效率的根本因素.摈弃了现有方法基于序列分块的并行策略,采用基于位点分块的并行思想,具有天然的效率优势.进一步,提出了极大等位公共子序列(maximal allelic common subsequence, MACS)的概念并设计了基于MACS的特征区域划分策略.该策略能将交互特征的查找范围缩小至许多“碎片”空间,并保证不同“碎片”间不存在交互特征,避免计算耦合引起的高额通信代价.利用基于置换搜索的并行蚁群算法,执行交互特征选择.大量真实数据集和合成数据集上的实验结果,证实提出的PACOIFS算法在有效性和效率上优于同类其他算法.
参考文献
相关文章 15
[1] | 吴宗友, 白昆龙, 杨林蕊, 王仪琦, 田英杰. 电子病历文本挖掘研究综述[J]. 计算机研究与发展, 2021, 58(3): 513-527. |
[2] | 陶涛, 孙玉娥, 陈冬梅, 杨文建, 黄河, 罗永龙. 一种基于智能手机传感器数据的地图轮廓生成方法[J]. 计算机研究与发展, 2020, 57(7): 1490-1507. |
[3] | 陈叶旺, 申莲莲, 钟才明, 王田, 陈谊, 杜吉祥. 密度峰值聚类算法综述[J]. 计算机研究与发展, 2020, 57(2): 378-394. |
[4] | 田继伟,王劲松,石凯. 基于PU与生成对抗网络的POI定位算法[J]. 计算机研究与发展, 2019, 56(9): 1843-1850. |
[5] | 刘芳,李戈,胡星,金芝. 基于深度学习的程序理解研究进展[J]. 计算机研究与发展, 2019, 56(8): 1605-1620. |
[6] | 洪敏,贾彩燕,李亚芳,于剑. 样本加权的多视图聚类算法[J]. 计算机研究与发展, 2019, 56(8): 1677-1685. |
[7] | 高腾飞,刘勇琰,汤云波,张垒,陈丹. 面向时间序列大数据海量并行贝叶斯因子化分析方法[J]. 计算机研究与发展, 2019, 56(7): 1567-1577. |
[8] | 韩东明,郭方舟,潘嘉铖,郑文庭,陈为. 面向时序数据异常检测的可视分析综述[J]. 计算机研究与发展, 2018, 55(9): 1843-1852. |
[9] | 王一舒,袁野,刘萌,王国仁. 大规模时序图数据的查询处理与挖掘技术综述[J]. 计算机研究与发展, 2018, 55(9): 1889-1902. |
[10] | 朝鲁,彭晓晖,徐志伟. 变熵画像:一种数量级压缩物端数据的多粒度信息模型[J]. 计算机研究与发展, 2018, 55(8): 1653-1666. |
[11] | 段琼,田博,陈征,王洁,何增有. CUDA-TP:基于GPU的自顶向下完整蛋白质鉴定并行算法[J]. 计算机研究与发展, 2018, 55(7): 1525-1538. |
[12] | 李建江,陈玮,李明,张凯,刘雅俊. 基于网格热度值的船舶规律路径提取算法[J]. 计算机研究与发展, 2018, 55(5): 908-919. |
[13] | 苏华友, 温文, 李东升. 面向GPU的单颗粒冷冻电镜软件RELION并行与优化[J]. 计算机研究与发展, 2018, 55(2): 409-417. |
[14] | 刘旭, 杨章, 杨扬. 针对天河2号的一种嵌套剖分负载平衡算法[J]. 计算机研究与发展, 2018, 55(2): 418-425. |
[15] | 张恒山,高宇坤,陈彦萍,王忠民. 基于群体智慧的簇连接聚类集成算法[J]. 计算机研究与发展, 2018, 55(12): 2611-2619. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3926