符号序列的LDA主题特征表示方法
冯超1,2(),徐鲲鹏1,2,陈黎飞1,2,*()1. 福建师范大学数学与信息学院,福建 福州 350117
2. 数字福建环境监测物联网实验室,福建 福州 350117
收稿日期:
2019-12-18出版日期:
2020-04-20发布日期:
2020-04-16通讯作者:
陈黎飞E-mail:fc_fight2017@163.com;clfei@fjnu.edu.cn作者简介:
冯超(1994—),男,安徽六安人,硕士研究生,主要研究方向为数据挖掘. E-mail:基金资助:
国家自然科学基金资助项目(61672157);国家自然科学基金资助项目(U1805263);福建师范大学创新团队资助项目(IRTL1704)LDA-based topic feature representation method for symbolic sequences
Chao FENG1,2(),Kunpeng XU1,2,Lifei CHEN1,2,*()1. College of Mathematics and Informatics, Fujian Normal University, Fuzhou 350117, Fujian, China
2. Digital Fujian Internet-of-Things Laboratory of Environmental Monitoring, Fuzhou 350117, Fujian, China
Received:
2019-12-18Online:
2020-04-20Published:
2020-04-16Contact:
Lifei CHEN E-mail:fc_fight2017@163.com;clfei@fjnu.edu.cnSupported by:
国家自然科学基金资助项目(61672157);国家自然科学基金资助项目(U1805263);福建师范大学创新团队资助项目(IRTL1704)摘要/Abstract
摘要: 针对现有序列挖掘算法特征维度高、学习算法时间复杂度高等方面的不足,提出一种主题特征表示法,将符号序列转换为一组表示多个主题呈现度的概率向量。基于文本挖掘中常用的隐含狄利克雷分配(latent Dirichlet allocation, LDA)主题模型,视短序列元组为序列的浅层特征(词),利用LDA模型学习算法提取主题及其概率分布,作为序列的深层特征。在6个实际序列数据集上进行试验,并与基于元组、Markov模型的现有方法作对比,结果表明,新方法在降低特征维度的同时提高了表示模型的学习效率,在符号序列分类应用中可以取得较理想的分类精度。
PDF全文下载地址:
http://gxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1910