摘要:时间序列数据广泛产生于科技和经济的多个领域.基于符号傅里叶近似(symbolic Fourier approximation)和滑动窗口的定长单词抽取算法是目前时间序列特征字典构建过程中最有效的特征生成算法之一,但是该算法在特征生成过程中不能根据不同滑动窗口长度动态地选择保留的最优傅里叶值的个数,而且特征字典构建过程中缺少从生成的海量特征中对鉴别性特征进行有效选择的算法.为此,提出一种鉴别性特征字典构建算法.首先,提出一种针对不同长度滑动窗口学习最优单词长度的基于Fourier近似的可变长度单词抽取方法;其次,构建了一种新的特征鉴别性评价指标,并依据其动态阈值对生成的特征进行选择.实验结果表明,基于构建的特征字典的逻辑回归模型不仅分类精度高,而且可以有效发现预测过程中的鉴别性特征.
Abstract:Time series data are widely generated in many fields of science, technology and economy. Time series feature generation algorithm based on Symbolic Fourier Approximation (SFA) and sliding window transformation mechanism is one of the most effective feature dictionary construction algorithms, but there are some obvious shortcomings in this kind of methods. Firstly, the number of optimal Fourier values cannot be dynamically selected for different sliding window lengths in the process of transformation. Secondly, there is a lack of effective algorithm to select discriminant features from the generated massive features. To this end, a new variable length feature dictionary building algorithm is proposed in this study. First, a variable length word extraction method based on SFA is proposed. The method dynamically selects the optimal number of Fourier values for different sliding window lengths. Second, a new feature discriminant evaluation indicator is designed, and the generated features are selected according to its dynamic threshold. Experimental results show that, based on the proposed time series dictionary, the logistic regression model can achieve high classification accuracy and find the discriminant features in the prediction process.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5852
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
一种时间序列鉴别性特征字典构建算法
本站小编 Free考研考试/2022-01-02
相关话题/序列 科技 数据 逻辑 实验
基于物理及数据驱动的流体动画研究
摘要:主要针对近年来流行的基于物理及数据驱动的各种流体动画模拟算法及其应用给出了一个全面的前沿性综述.首先,对传统的基于物理的流体模拟加速方法进行了综述和总结,同时给出了此类方法中各种算法的优劣性分析;其次,对现有的基于数据驱动的多种算法进行了综述和分析.特别地,将现有的数据驱动方法归结为3类,即数 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02SDN数据平面软件一致性测试用例生成方法
摘要:SDN(software-definednetwork)旨在解决架构复杂且分散的传统网络出现的问题,使网络具有更强的灵活性.P4编程语言的特征在于用户可以直接根据自己对处理数据包的需求定义P4程序,然后经过编译过程,生成适配文件将用户需求配置到网络设备.面向P4编程语言的SDN数据平面一致性测 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02区块链的数据管理技术综述
摘要:最近几年,随着加密货币和去中心化应用的流行,区块链技术受到了各行业极大的关注.从数据管理的角度,区块链可以视作是在一个分布式环境下众多不可信节点共同维护且不可篡改的账本.由于节点间相互不可信,区块链通过共识协议,确保数据存储的一致性,实现去中心化的数据管理.针对区块链的安全性以及共识协议,已有 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于双层协同的联盟区块链隐私数据保护方法
摘要:为了解决联盟区块链平台中的隐私保护问题,提出了一种基于双层协同的隐私数据保护方法,包括:(1)链间隐私保护:通过将不同业务的数据进行分流处理、分区存储,实现了不同业务之间的隐私机密性保护;(2)链内隐私保护:通过在交易体中嵌入字段来指定链内隐私数据的参与方,并由接收交易的区块链节点作为中转节点 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于日志数据的分布式软件系统故障诊断综述
摘要:基于日志数据的故障诊断是指通过智能化手段分析系统运行时产生的日志数据以自动化地发现系统异常、诊断系统故障.随着智能运维(artificialintelligenceforIToperations,简称AIOps)的快速发展,该技术正成为学术界和工业界的研究热点.首先总结了基于日志数据的分布式软 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02数据中心网络负载均衡问题研究
摘要:数据中心网络是现代网络和云计算的重要基础设施,实现数据中心网络负载均衡是保证网络吞吐并提高服务体验的关键环节.首先分析了数据中心网络与传统互联网之间的区别,总结其特点及特殊性在负载均衡方案设计方面的优势.然后从数据中心的复杂性和多样性角度分析其负载均衡方案设计所面临的挑战.将现有数据中心网络负 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向大数据分析作业的启发式云资源供给方法
摘要:云计算已成为大数据分析作业的主流运行支撑环境,选择合适的云资源优化其性能面临巨大挑战.当前研究主要考虑大数据分析框架(如Hadoop,Spark等)的多样性,采用机器学习方法进行资源供给,但样本少容易陷入局部最优解.提出了大数据环境下基于负载分类的启发式云资源供给方法RP-CH,基于云资源共享 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向顺序存储结构的数据流分析
摘要:C程序中数组、malloc动态分配后的连续内存等顺序存储结构被大量使用,但大多数传统的数据流分析方法未能充分描述其结构及其上的操作,特别是在利用指针访问顺序存储结构时,传统的分析方法只关注了指针的指向关系,而未讨论指针可能发生偏移的数值信息,且未考虑发生偏移时可能存在越界的不安全问题,导致了对 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于代理重加密的云数据访问授权确定性更新方案
摘要:有越来越多的用户选择云为其进行存储、运算、共享等数据处理工作,因此云端数据量与日俱增,其中不乏敏感数据和隐私信息.如何对用户托管于云端的数据进行授权管理,保证数据机密性、访问授权有效性等至关重要.为此,提出一种基于代理重加密(proxyre-encryption,简称PRE)的云端数据访问授权 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向流数据分类的在线学习综述
摘要:流数据分类旨在从连续不断到达的流式数据中增量学习一个从输入变量到类标变量的映射函数,以便对随时到达的测试数据进行准确分类.在线学习范式作为一种增量式的机器学习技术,是流数据分类的有效工具.主要从在线学习的角度对流数据分类算法的研究现状进行综述.具体地,首先介绍在线学习的基本框架和性能评估方法, ...中科院软件研究所 本站小编 Free考研考试 2022-01-02