(武汉大学计算机学院 武汉 430072) (gaotengfei@whu.edu.cn)
出版日期:
2019-07-01基金资助:
国家自然科学基金项目(61772380);湖北省自然科学基金创新群体项目(2017CFA007)A Massively Parallel Bayesian Approach to Factorization-Based Analysis of Big Time Series Data
Gao Tengfei, Liu Yongyan, Tang Yunbo, Zhang Lei, Chen Dan(School of Computer Science, Wuhan University, Wuhan 430072)
Online:
2019-07-01摘要/Abstract
摘要: 时间序列大数据记录着复杂系统在时间和空间上大尺度的演化过程,详细描述了系统不同部分之间的相互作用和相互联系.提取时间序列大数据中潜在的低维因子对研究复杂系统的整体机制有着至关重要的作用.大数据的超高维和大尺度导致许多传统因子分析方法难以适应,先验知识缺乏更增加了研究难度.针对这一巨大挑战,提出了一种面向时间序列大数据的海量并行贝叶斯因子化分析方法(the massively parallel Bayesian factorization approach, G-BF).在缺失先验知识的情况下,通过贝叶斯算法导出因子矩阵,将算法映射至CUDA(compute unified device architecture)模型,以大规模并行的方式更新因子矩阵.该方法支持对任意维度张量的因子分解.实验结果表明:1)与通过GPU加速化的因子分解算法G-HALS(GPU-hierarchical alternative least square)相比,G-BF具有更好的运行性能,且随着数据规模的增加,其性能优越性更加明显;2)G-BF在数据处理规模、秩及维度方面都具有良好的可扩展性;3)将G-BF应用于现有子因子融合框架(hierarchical-parallel factor analysis, H-PARAFAC),可将“巨型”张量作为一个整体进行因子化分解(在2个节点上处理10\+{11}个数据元素),其能力较常规方法高出2个数量级.
参考文献
相关文章 5
[1] | 廖国琼,姜珊,周志恒,万常选. 基于位置社会网络的双重细粒度兴趣点推荐[J]. 计算机研究与发展, 2017, 54(11): 2600-2610. |
[2] | 王俊华,左万利,闫昭. 基于朴素贝叶斯模型的单词语义相似度度量[J]. 计算机研究与发展, 2015, 52(7): 1499-1509. |
[3] | 张挺,杜奕,黄涛,李雪. 一种基于并行SNESIM的空间数据重建方法[J]. 计算机研究与发展, 2015, 52(6): 1431-1442. |
[4] | 唐 亮 骆祖莹 赵国兴 杨 旭. 利于GPU计算具有线性并行度的P/G网SOR求解算法[J]. , 2013, 50(7): 1491-1500. |
[5] | 楼俊钢, 江建慧, 沈张果, 蒋云良, . 软件可靠性预测的相关向量机模型[J]. , 2013, 50(7): 1542-1550. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3975