删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于特征空间变换与LSTM的中短期电煤价格预测

本站小编 Free考研考试/2021-12-15

廖志伟, 陈琳韬, 黄杰栋, 庄竞
华南理工大学 电力学院, 广东 广州 510640
收稿日期:2020-08-13
基金项目:国家自然科学基金资助项目(51437006)。
作者简介:廖志伟(1973-), 男,广西桂林人,华南理工大学副教授,博士。

摘要:针对电煤价格影响因素多且非线性多时间滞后难以建模的问题, 提出一种基于特征变换与LSTM的数据驱动的中短期电煤价格预测方法.为了充分挖掘海量数中蕴含的电煤价格规律, 提出不同时间尺度颗粒度信息的特征变换方法; 为解决多变量少样本造成过拟合, 基于卡方分析和相关系数筛选中短期煤价的主要影响因素; 以LSTM神经网络为基础, 采用特征平移相关性分析方法确定不同影响特征序列的滞后性, 通过主层次分析法优化模型中的信息冗余, 在此基础上形成基于特征趋势的深度学习模型; 利用多年历史数据及与多种模型的对比分析可知本文模型的有效性与准确性.
关键词:电煤价格连续预测特征变换长短神经网络数据驱动LSTM
Medium and Short-Term Electricity Coal Price Forecast Based on Feature Space Transformation and LSTM
LIAO Zhi-wei, CHEN Lin-tao, HUANG Jie-dong, ZHUANG Jing
School of Electric Power Engineering, South China University of Technology, Guangzhou 510640, China
Corresponding author: LIAO Zhi-wei, E-mail: epliao@scut.edu.cn.

Abstract: Aiming at the problem that there are many influencing factors of electricity coal prices and the nonlinearity and multiple time lags are difficult to model, a data-driven medium and short-term electricity coal price forecasting method based on feature transformation and LSTM was proposed. In order to fully excavate the electricity coal price law contained in the massive data, the feature transformation method of different time scale granularity information was proposed. In order to solve the problem of over-fitting caused by multiple variables and small samples, the main influencing factors of medium and short-term coal prices were screened based on chi-square analysis and correlation coefficient. Based on the LSTM neural network, the feature translation correlation analysis method was used to determine the hysteresis of different influencing feature sequences, and the information redundancy in the model was optimized by the main analytic method, and on this basis, a deep learning model based on feature trends was formed. The years of historical data and comparative analysis with various models show the effectiveness and accuracy of this model.
Key words: coal pricecontinuous forecastingfeature transformationlong short neural networkdata drivenLSTM(long short-term memory)
电力市场中发电量和电价交易结果是根据各种发电成本预测、竞价博弈论等方法制定的[1].作为当前中国的主导能源, “可见可知”的煤炭价格对于协调平衡社会电力与能源生产具有重要作用.因此, 中短期电煤价格精准预测对透明化电力市场电价竞价上网成本、降低生产运营成本目标[2]及完善电力系统的规划、运营、调度和管理具有重要意义.
不少****将电煤价格预测作为时间序列模型开展研究[3], 在各个领域, 自回归及其相关模型广泛用于解决时间序列预测, 文献[4]根据AR与具有外源输入的ARX模型预测了葡萄糖浓度时间序列, 分析了预测步长对时间序列预测准确性的影响; 文献[5]着重考虑了时间序列中的季节因素, 建立了季节性自回归模型, 实现食品销量时间序列预测; 对于电煤价格预测, 文献[6-8]根据煤炭的定价机制与煤炭价格的影响因素, 讨论了煤炭价格的预测策略; 文献[3]通过建立ARIMA模型来估算2016—2030年中国的煤炭价格; 文献[9]构建了一种最小二乘预测模型, 实现煤炭价格的自回归预测.上述研究仅考虑采用目标量的历史数据对目标值进行线性拟合, 忽略了其他影响因子对煤价的相互耦合作用[10].煤炭价格受诸如国内外宏观经济发展形式、电厂等煤炭下游产业发展水平、火电发电量、煤炭替代能源价格、煤炭期货市场行情、环境保护政策、国内外政治外交等众多因素所影响, 为此, 提出了多因子预测模型.文献[11]分别利用线性回归与VAR方法, 对煤炭价格进行了实证分析与回归预测; 文献[12]通过融合遗传算法与数据分组处理方法, 构建了煤炭价格多元预测模型.人工智能的出现为电煤价格预测多元非线性时间序列预测问题建模提供了新的思路[13].文献[14]利用Dual Attention模型和LSTM网络建立工业中输入与输出之间存在时序上的依赖关系, 说明神经网络能够对不同的时间序列之间建立映射关系; 在电煤价格方面, 文献[15]建立PSO和RBF神经网络模型进行煤炭价格预测; 文献[16]利用多层感知器网络预测秦皇岛煤炭价格, 实验结果证明神经网络算法预测的准确性高于ARIMA模型; 文献[17]分别利用高斯核与方差核函数构建了SVR煤价预测模型.这类模型的学习性能及预测精度得到了极大改善, 但没有论述如何选择训练集提高样本的典型性、覆盖性, 以及如何合理构造模型以提高样本外的泛化预测性能.
综上可知, 电煤价格预测可在以下方面进一步改进: ①原有单变量煤价因素研究, 易忽略多维有效特征之间的非线性耦合作用.随着计算机技术、通讯技术及数据存储技术的发展, 现已积累大量涉及到煤价多维度影响因素的海量数据, 可以借助最新机器学习技术对蕴含其中的煤价演变规律进行挖掘, 以克服原有研究中仅依赖个别特征的影响,缺乏考虑的特征有可能在特定时期发挥主导决定作用.②信息并非越多越好, 海量多维度影响因素之间复杂的相互作用会遮掩有效特征之间的耦合,影响有效特征对预测指标的映射; 但在同等情况下, 系统感知、数据、控制装置的个数应该越少越好, 否则就会适得其反, 即所建立的煤价预测模型应满足最小实现原理.③电力现货市场的两种出清机制: 市场价格统一出清机制与按报价出清机制, 最终发电量和电价交易结果是根据各种发电成本预测、竞价博弈论等方法制定, 这对电煤中短期价格的连续预测提出更高要求.
本文构建一种基于特征变换与LSTM的数据驱动的中短期电煤价格预测模型, 根据不同时间尺度和颗粒度的数据, 实现对中短期电煤价格变化趋势的预测.首先, 通过卡方分析与皮尔逊相关系数分析, 动态确定影响中短期煤价的主要影响因素, 优化输入维度空间.其次, 基于特征历史信息的相似性, 提出了特征空间变换模型, 对原特征空间进行变化改进, 构建用于连续预测的学习样本.在根据特征平移相关性分析方法确定电煤价格特征持续性影响与滞后性影响的参数后, 引入了LSTM神经网络解决特征与电煤价格之间复杂非线性的映射; 为了解决小样本多维度空间知识学习问题, 引入控制论中最小实现模型的概念, 利用主层次分析法对预测模型的特征空间进行变换; 最后, 多年的历史数据及与多种模型的对比分析验证了基于特征空间变换的LSTM电煤价格预测模型的中短期连续预测有效性与准确性.
1 特征空间构建与分析1.1 中短期电煤价格预测根据电煤价格预测时间可划分为长期、中期、中短期及超短期, 也可分为年、季、月、周及日等.鉴于电力现货市场对实时电煤中短期价格的连续预测需求, 开展月度中短期电煤预测研究, 以天为颗粒度, 实现近一个月煤价趋势预测.以2015—2020年煤炭资源CCI5500指数及相关特征指标开展研究.
电煤价格时间序列为
(1)
(2)
式中, Xi-mi-1表示t=i-mt=i-1的电煤价格特征矩阵.
由式(1)可知, 无论自回归、多元回归及人工智能模型, 预测过程都需要输入相关的特征影响因子.因此需要合理构造输入特征向量序列, 实现月度连续日电煤价格预测.此外, 我国煤炭已市场化改革, 煤炭价格的影响因素十分复杂, 特征选择既需要考虑潜在影响因素, 更要甄别各种真伪及信息获取的经济性及有效性.
1.2 特征空间变换序列构建1) ?进行时间序列预测时, 需要涉及相关特征在未来一段时间的估计值, 估计值不仅本身存在误差, 而且会在预测模型中形成误差传递, 降低电煤价格预测的准确性.因此, 如何构造有效反应煤价趋势时间序列集是一个难点.
2) ?对未来一个月以天为颗粒度的煤价进行回归预测分析, 所构造特征信息需要呈现出时间序列形式, 未来某日的电煤价格可能取决于此前某一个时间段的多个特征组成时间序列组, 具体延时作用需要另行确定.影响因子与中短期电煤价格的时间约束关系如图 1所示.
图 1(Fig. 1)
图 1 影响因子与中短期电煤价格的时间约束关系Fig.1 Time constraint relationship between impact factor and medium and short-term electricity coal prices

本文提出一种基于特征历史趋势的空间变换方法, 在各特征历史数据规律基础上, 实现对所需特征的间接映射, 其方法如下.
特征向量为X=[x1, …, xj, …, xn]; 当t=i时, 特征值向量为Xi=[x1, i, …, xj, i, …, xn, i], xj, i表示第j个特征在t=i时候的取值.如果特征因子xj在第k年长度为M序列{xj, 1k, xj, 2k, …, xj, Mk}与不同年份、相同时间段自身序列存在趋势相似的情况时, 与第l年序列{xj, 1l, xj, 2l, …, xj, Ml}相似, 则假设第k年往后的一段时间内的序列走势{xj, M+1k, xj, M+2k, …, xj, M+pk}将可能与第l年(l < k)趋势{xi, M+1k, xi, M+2k, …, xi, M+pk}保持一致.
依据假设, 通过寻找过去相应年份相关度高的曲线, 可由该曲线推演出需要预测时间段内的曲线走势.特征空间变换的算法结构如图 2所示.依据该方法, 特征序列可以用相关的历史特征进行映射:
(3)
图 2(Fig. 2)
图 2 基于历史趋势的特征变换法Fig.2 Feature transformation method based on historical trend

式中, {Xl}M+1M+p=[XM+1l, XM+2l, …, XM+pl].
式(1)可表示为式(4)的形式:
(4)
式中, {Xl}i-mi-1=[Xi-ml, Xi-m+1l, …, Xi-1l].
电煤价格受多方面因素影响, 天气因素、政策因素、上游煤炭供给和下游煤炭企业需求等共同影响煤价变化.不同的预测时长, 电煤价格的影响因素并不相同, 但电煤本质上是一种商品, 在国内外市场激烈竞争下, 商品的供求关系决定着商品的价格.中国特色社会主义市场经济体现了国家对市场的宏观调控, 国家政策主要影响电煤价格长期走势.在研究电煤中短期价格预测时, 可假设国家政策对电煤价格短时间的影响忽略不计.而天气环境、温度变化等自然环境因素被视为间接影响因子, 其通过影响电煤运输、消纳间接地影响电煤价格.
通过对比特征因子与电煤价格的相关关系, 选取相关性较高的变量, 筛除不相关的变量.
1.3 皮尔逊相关系数皮尔逊相关系数是一种简单的、用于度量特征和响应变量之间关系的方法, 皮尔逊相关系数计算变量之间的线性相关关系, 变量的相关性强弱用介于-1到1之间的数值ρ量化, ρ绝对值越接近1, 表示变量间的线性相关性越强; ρ绝对值越接近于0, 表示相关性越弱.若ρ>0,表示变量间是正相关关系; ρ < 0,表示变量间是负相关的关系[18].皮尔逊相关系数计算式为
(5)
式中: cov(X, Y)为序列XY的协方差E[(X-E[X])(Y-E[Y])]; δ(X)和δ(Y)分别为序列XY的标准差.通常用表 1的标准判断变量之间的相关强度.
表 1(Table 1)
表 1 相关性强弱关系表Table 1 Feature correlation table
相关程度 极强相关 强相关 中等相关 弱相关
相关系数绝对值 0.8~1.0 0.6~0.8 0.2~0.6 0.0~0.2


表 1 相关性强弱关系表 Table 1 Feature correlation table

1.4 基于分段卡方与相关系数的中短期电煤价格特征分析不同特征之间的数据颗粒度存在明显差异.按照特征指标发布的周期统计, 各种特征数据颗粒度可以分为月、旬、周和日颗粒度信息.由于CCI5500是日颗粒数据, 所以在分析特征与CCI5500相关关系时, 将后者分别转换为“周”、“旬”和“月”数据.本文先采取分段卡方检验方法[19]从供需、库存、运输、市场环境与各地煤炭价格等逾百个潜在特征中, 找出CCI5500统计性显著差异, 即观察变量之间的独立性与拟合性.将不同颗粒度的特征, 即日、周、旬、月颗粒度的特征分段切割为年、季度时间序列分别进行卡方检验.表 2为2019年CCI5500前10影响程度的日指标与旬指标信息.
表 2(Table 2)
表 2 2019年日、旬颗粒度特征贡献度Table 2 Contribution degree of daily and tenth granularity characteristics in 2019
指标排名 日颗粒度特征贡献度 旬颗粒度特征贡献度
1 海运费指数1 地区1煤炭库存
2 海运费指数2 地区2煤炭库存
3 港口1库存 重点电厂总库存
4 港口2船舶数 企业1煤炭库存
5 港口3库存 企业2煤炭产量
6 海运费指数3 地区3煤炭库存
7 港口2库存 企业3煤炭产量
8 北方某4港口总库存 煤炭消纳指标
9 港口4库存 企业4煤炭产量
10 煤炭价格指数1 企业5煤炭库存


表 2 2019年日、旬颗粒度特征贡献度 Table 2 Contribution degree of daily and tenth granularity characteristics in 2019

通过卡方检验可得, 各颗粒度指标分段检测普遍都存在这个相似点: 相关价格指数、各煤炭库存及港口煤炭调度信息具有较高的贡献度.根据分段卡方检验初步分析候选特征指标确定为28个, 特征向量为[X1, X2, …, X28], 其中X1~X9为价格型指标; X10为国际汇率; X11为为煤炭消纳量指标; X12~X16为煤炭库存信息; X17~X20为煤炭运输船舶信息; X21~X28为港口煤炭调度信息.
进行相关性分析前, 需要对特征序列进行移动平均处理.移动平均法是时间序列分析和时间序列预测中常用的一种简单的平滑方法, 目的是消除原有序列的噪声, 更好地揭示潜在因果过程的信号, 时间序列移动平均过程为
(6)
实验中对初步筛选的特征以及CCI5500指数进行90天移动平均操作, 进而分析它们之间的相关性, 结果如图 3所示.由图 3可知, 价格型特征与目标电煤价格之间的相关性十分强, 这种近似线性关系在模型训练过程中非但不能提升模型的预测准确性, 反而会干扰其余特征, 所以予以舍弃.候选特征中港口煤炭调度信息与煤炭运输船舶信息共同作用的结果反映了各港口煤炭进口数量, 定义这种表述港口煤炭进口数量的特征为港口煤炭净进口量.
图 3(Fig. 3)
图 3 候选特征与CCI5500指数的相关性Fig.3 Correlation between candidate features and CCI5500

最终确认煤炭消纳量指标X11、煤炭库存指标X12~X16及港口煤炭净进口量指标X17~X28总共18个影响因素作为电煤价格预测的特征.
那么, 式(1)中通用表达式中的特征矩阵, 可以根据最终筛选的输入变量而确定.根据特征变换模型, 将筛选后的特征转变为如式(4)所示的矩阵形式, 构建用于本文电煤价格预测的输入特征.
2 电煤价格预测模型构建2.1 中短期电煤价格LSTM预测模型电煤价格的影响因素复杂, 不同的特征可能存在不同滞后性和连续性.LSTM(long short-term memory)网络在处理时间序列时具有良好的效果, 其可将特征影响向前传递, 实现特征信息对电煤价格的持续性影响, 完成特征在不同时空中相互耦合.LSTM是循环神经网络的变体, 其面对电煤特征序列存在有用信息间隔长短不一情况时, 拥有更好的表现[20].LSTM的网络单元, 由输入门、遗忘门和输出门组成, 该门结构在网络由sigmoid函数实现.其主要结构如图 4所示.
图 4(Fig. 4)
图 4 LSTM神经元结构图Fig.4 LSTM neuron structure diagram

1) ?输入门部分:
(7)
(8)
(9)
式中: I为输入门的门结构; r为对上一个时刻输出与当前时刻电煤特征的非线性耦合过程; f1为sigmoid函数; f2为tanh函数; ?为定义的按位乘法符号; PI为通过输入门筛选输入的参数; WIWr分别为输入门sigmoid函数和tanh函数中的权重; cIcr为输入门sigmoid函数和tanh函数中的偏置项; Ot-1为神经网络上一个时刻的输出值; Xt为当前时刻的输入特征值.
2) ?遗忘门部分:
(10)
(11)
式中: J为遗忘门的门结构; PJ为上一时刻状态通过遗忘门后保留的状态信息; st-1为神经网络上一时刻状态; WJcJ分别为输入门sigmoid函数的权重和偏置项.
3) ?输出门部分:
(12)
(13)
(14)
式中: K为输出门的门结构; WKcK分别为输入门sigmoid函数的权重和偏置项; st为当前时刻的状态; Ot为当前时刻的输出; ⊕为按位相加符号.
通过若干个LSTM神经元组合及迭代学习, 保留反映电煤价格波动的状态量, 完成价格预测.
2.2 电煤预测模型的信息优化尽管电煤价格复杂的影响因素能够为回归模型提供丰富的信息, 但变量之间复杂作用会掩盖有效特征之间的耦合和对预测指标的映射; 如果对变量进行单独分析, 分析结果则变得孤立.控制理论和大系统理论中存在一个最小实现原理[21], 在同等效果的情况下, 参与系统感知、数据控制的装置数量应该越少越好, 否则就会适得其反.该原理同样适用于时间序列预测模型.
主层次分析法(principal component analysis, PCA)本质上是根据特征之间相关关系, 将关联性强的变量映射成新的变量, 保留相关性低的变量, 从而降低变量的维度.算法模型每次参数的修正都伴随着信息增量的改变, 因此模型参数修正过程需要足够的样本.当煤价预测样本数量不能满足算法模型需求的时候, 模型所感知的特征量越大, 扭曲也一定越大, 此时大量特征使得模型偏离和扭曲本真, 需使用PCA降维再进行学习预测.假设经过特征空间变换后, 特征矩阵表示为: X=[x1, x2, …, xn]T, 其中, xjRm, j=1, 2, …, n, 需要将n维特征映射到p维主成分方向.PCA的具体步骤为:
1) ?去中心化: 定义xi=xi- xi, 其中xi= , 各变量去中心化得到新的特征矩阵为X′=[x1, x2, …, xn]T.
2) ?对于矩阵X, 其协方差矩阵Y定义为
(15)
式中: (xi, k- xi)(xj, k- xj),为特征向量xixj之间的协方差; xi, xj为特征向量xixj的均值.所以,
(16)
3) ?特征值分解: 协方差矩阵的特征向量表示方差的方向, 最大特征值对应的特征向量就是最大方差的成分方向[22].根据矩阵特征分解方法, 协方差矩阵Y为特征向量矩阵与特征值矩阵之间的乘积:
(17)
式中: V, diag(λ)和λ分别为矩阵Y的特征向量组成的正交矩阵、特征值构成的对角矩阵与特征值.
4) ?重构: 假设最大p个特征值为λ1, λ2, …, λp, 对应特征向量矩阵为Vp=[v1, v2, …, vp]T.保留方差最大p个主成分方向, 得到原特征矩阵的主成分降维矩阵Z:
(18)
根据式(3), 式(4)与式(15)~式(18), 将LSTM作为式(1)中的时间序列映射方法, 则式(1)具体表达的电煤价格预测模型为: yi=LSTM(Z).
3 算例分析3.1 算法性能评估指标所有实验数据处理与预测过程在python3.7.4及CPU i7 7700K环境中完成编程计算.预测指标采用平均绝对百分比误差eMAPE(mean absolute percentage error, MAPE)、最大绝对误差eME(max error, ME)和相对均方误差eRMSE(root mean square error, RMSE).
(19)
式中: f(xi)为测试集第i个样本的预测值; yi为测试第i个样本的实际值; n为测试集数量.
3.2 电煤价格指数分析通过HP滤波法, 将CCI5500指数的长期趋势和周期循环分离.经过初步分析可以得到煤炭价格的波动特征, 如图 5所示.
图 5(Fig. 5)
图 5 电煤价格因素分解图Fig.5 Decomposition chart of electricity coal price factors (a)—P-SF为季节性要素分量; (b)—P-TC为序列长期趋势分量.

由P-SF季节性趋势可知, 春冬季煤炭价格具有上扬趋势, 而夏秋季煤炭价格都呈季节性下探趋势.电煤价格的季节周期性佐证了1.2节所提出的特征空间变换法的假设, 趋势相同的电煤序列反映着在对应的时间区间内, 两者国内外政策、气候环境变化等情况是相似的; 由于电煤价格是各种影响因素共同平衡的结果, 那么相似的电煤价格波动, 必然存在着彼此相似或相关的特征波动.P-TC序列为最终的长期波动趋势.从长期趋势看, 电煤价格呈现余弦函数趋势; 从季节性趋势看, 电煤价格周期波动明显, 且伴随小伏上升.长期性趋势和季节趋势综合反映了电煤价格.
3.3 样本构建与滞后期分析考虑到原始数据特征的单一性及现有研究缺乏多粒度特征的构建, 并且本文需要建立日颗粒度预测模型, 统一将所有特征转化为日颗粒度数据.由于旬数据、周数据及日数据的采样周期相差不大, 采用次匹配平均值方法进行频率转换, 认为旬和周颗粒度采样序列为一种基于日颗粒度序列的缺失序列, 可根据线性插值法进行数据补全.第i个数据与第i+1个数据之间的线性插值函数为
(20)
式中, xiyi为第i个数据的序列号及采样值.
至于月颗粒数据与日颗粒度数据采样周期相差大, 线性插值法会抹除周期间数据波动的趋势.提出一种中心点复合插值的方法, 将月颗粒度特征变化过程由离散型转换为连续型.该方法定义: 采样值为原始端点, 其中第i个采样值为端点di; didi+1的均值作为两端点的中心点ti估计值, 认为端点附近特征变化是缓慢的, 特征变化的主要过程发生于端点间的中心点附近; 假设端点处附近特征的导数接近于0, 而其导数的最大值发生在中心点.具体过程为: 对于非首、尾端点, 根据中心点ti, di+1ti+1进行二次插值; 对于首、尾端点, 分别根据d1, t1, tn-1dn进行线性插值.
实际上, 每一个特征对目标指数影响都存在一定的滞后性与持续性, LSTM模型需要确定这个参数使得特征与电煤价格更准确地对应, 所以需要针对不同特征时间序列进行相应的滞后期数分析.采用特征平移相关性分析法, 确定各个特征的滞后期.该方法的具体步骤为:
1) ?定义特征i的原始序列为
2) ?设定每次平移的基准为时间1, 不断迭代平移原始特征序列, 计算特征每次平移后与电煤价格序列的相关性, 记录相关性最大的时间距离作为该特征的滞后天数, 值得注意的是, 滞后期选择不宜过大, 其过大会限制LSTM网络的泛化能力.特征滞后性分析结果如表 3所示.
表 3(Table 3)
表 3 特征滞后期数分析Table 3 Characteristic lag period analysis
特征 滞后天数 特征 滞后天数
X11 30 X20 1
X12 0 X21 0
X13 0 X22 0
X14 0 X23 0
X15 30 X24 0
X16 0 X25 3
X17 0 X26 7
X18 8 X27 0
X19 14 X28 0


表 3 特征滞后期数分析 Table 3 Characteristic lag period analysis

表 3可知, 特征中最大滞后期为30天, 这决定了LSTM模型的序列时间步长, 表示LSTM模型将不考虑30天及以前特征信息对目前电煤价格的影响.
3.4 基于PCA的特征处理效果分析实验中特征空间变换法的空间变换长度设置为3年, 由于特征空间变换使得特征维度发生了扩展, 此时特征数量与样本数量之比是扩展前的3倍.特征信息量的扩展要求更为复杂的网络结构, 而复杂网络结构庞大的参数不利于模型泛化, 所以提出利用PCA法进行特征降维.使用PCA会一定程度上破坏各序列之间的空间结构, 但PCA总体保留了方差大的特征, 而被削减的特征仍能通过其余参数体现.可以认为PCA前后仅在特征之间相互作用, 新的特征相对于目标序列依然保持着原有特征的相互作用, 此时滞后期的选取仍有意义.预测模型通过滚动预测了2019年5月和2019年6月CCI5500电煤价格指标.
PCA特征降维前后两个月的预测曲线与实际曲线对比结果如图 6所示.从两个月滚动预测结果的可视化曲线可知, 使用PCA特征降维后模型的预测曲线较降维前曲线更贴合CCI5500的实际波动;若量化分析其预测误差,可知5月份PCA降维前、后的均方根误差分别为6.48元和5.53元,而6月份PCA降维前、后的均方根误差分别为25元和11.17元,显然PCA降维后的准确性明显高于降维前, 这说明PCA降维处理适用于该实验模型, 能够提高模型预测性能.
图 6(Fig. 6)
图 6 PCA前后效果对比分析Fig.6 Comparative analysis before and after PCA (a)—2019-05;(b)—2019-06.

本文提出的中短期电煤价格预测方法的具体数据驱动流程如图 7所示.
图 7(Fig. 7)
图 7 基于特征变换与LSTM的中短期电煤价格预测模型Fig.7 Medium and short-term electricity coal price forecasting model based on feature transformation and LSTM

3.5 电煤价格预测模型验证分析在传统的时间序列预测模型中, 如需要连续预测未来一段时间的电煤价格, 需要设置相应长度的预测步长.文献[4]指出, 预测步长与预测精度之间往往存在着一种负相关的关系, 预测步长越大, 预测精度越低.图 8反映不同预测步长对中短期电煤价格预测模型的影响, 其中两条曲线分别为考虑特征滞后与不考虑特征滞后的模型.预测精度分别用滚动预测的MAPE和RMSE两种误差描述, 预测周期为2019年3~10月.由图 8可知, 电煤价格预测模型的预测精度几乎与预测步长呈现负相关关系.
图 8(Fig. 8)
图 8 预测步长对电煤价格预测模型的影响Fig.8 Influence of forecast step on electric coal price forecast models

由于经过特征变换的过程, 本文所提出的预测模型在预测未来时刻的电煤价格过程中不存在特征缺失的现象, 即该模型在中短期连续预测过程中不需要扩大预测步长.本文的预测步长设置为1.
为验证本文模型的准确性和适用性, 选择SVM模型、BP神经网络模型与不考虑滞后期的LSTM模型作为参照模型, 与本文模型作对比分析.SVM模型和BP神经网络模型作为已用于煤价预测的成熟机器学习模型, 选择其作为对比组分析具有代表性; 不考虑滞后期的LSTM模型作为参照组, 描述了滞后期参数的必要性.实验从2019年和2020上半年的6个季度中各选取一个月份, 抽选2019年3, 4, 7, 10月及2020年1, 5月共6个时间段进行滚动预测对比分析, 如图 9所示.
图 9(Fig. 9)
图 9 各模型滚动预测对比分析Fig.9 Comparative analysis of rolling forecast of each model (a)—2019-02-24~2019-04-05; (b)—2019-03-26~2019-05-05; (c)—2019-06-29~2019-08-03; (d)—2019-09-27~2019-11-06; (e)—2019-12-26~2020-02-04; (f)—2020-04-29~2020-05-29.

图 9表 4~表 6可知, LSTM模型的准确性明显优于对照组的三种模型.这种预测优势来源于LSTM模型和对照组模型所考虑的特征序列片段不同, 对照组模型只是反映特征在特定时刻与煤价之间的映射关系, 而LSTM模型考虑的是特定时间区间特征序列片段与煤价之间的映射关系, 这种动态的映射使得LSTM模型拥有更好的准确性.
表 4(Table 4)
表 4 电煤价格预测模型相对均方误差对比Table 4 Comparison of RMSE of electric coal price forecast models ?
模型 2019/月 2020/月
3 4 7 10 1 5
LSTM 6.75 4.73 5.90 9.48 7.01 20.20
SVM 10.25 5.53 13.07 27.73 13.93 35.34
BP 14.48 13.23 12.12 17.61 14.04 49.24
无滞后LSTM 18.78 13.55 20.44 20.09 14.68 48.20


表 4 电煤价格预测模型相对均方误差对比 Table 4 Comparison of RMSE of electric coal price forecast models ?

表 5(Table 5)
表 5 电煤价格预测模型最大绝对误差对比Table 5 Comparison of ME of electric coal price forecast models ?
模型 2019/月 2020/月
3 4 7 10 1 5
LSTM 9.09 10.30 10.42 24.87 14.504 31.07
SVM 17.86 11.05 21.35 42.34 22.076 62.86
BP 26.29 26.48 27.35 33.09 20.568 73.22
无滞后LSTM 26.02 29.31 17.04 36.12 23.674 74.84


表 5 电煤价格预测模型最大绝对误差对比 Table 5 Comparison of ME of electric coal price forecast models ?

表 6(Table 6)
表 6 电煤价格预测模型平均绝对百分比误差对比Table 6 Comparison of MAPE of electric coal price forecast models ?
%
模型 2019/月 2020/月
3 4 7 10 1 5
LSTM 0.97 0.60 0.86 1.24 0.95 3.38
SVM 1.41 0.79 1.83 4.36 3.28 4.05
BP 2.29 1.58 3.01 2.50 2.38 8.55
无滞后LSTM 1.28 1.67 1.76 2.94 2.75 8.73


表 6 电煤价格预测模型平均绝对百分比误差对比 Table 6 Comparison of MAPE of electric coal price forecast models ?

2020年5月的预测结果显示各个模型在该月份的预测误差都高于其他时间段, 该现象是新冠肺炎疫情导致的.由于疫情的影响, 国内上下游煤炭企业无法复工复产, 电煤价格机制无法用原本的供求机制决定.值得注意的是, 在5月中旬, LSTM模型成功预测了煤炭价格涨幅趋势.从该模型的逻辑进行分析, 这种现象可能源于国内疫情得到有效控制, 原学习模型的价格机制得到一定程度的恢复.随着企业的复工复产, 电量需求和煤炭库存等特征也将指向“卖方市场”, 这表示存在能够通过学习模型及相关特征预测这个电煤价格涨幅的可能性, 但这个假设需要后续进一步增加相关的外源控制变量才能证明.整个5月份的平均绝对百分比误差为3.38%, 属于可接受的范围.另外, 在不同模型不同的预测片段中, 其预测的准确性也存在差异.
表 4~表 6分别为2种模型6个月预测的RMSE, ME和MAPE.
4 结论1) ?针对复杂的电煤环境, 根据统计学的卡方检验与相关系数, 筛除干扰性强的无关变量, 确定中短期电煤价格的主要影响因素; 采用特征往期信息为媒介构建用于连续预测的电煤价格特征, 同时引入了PCA降维方法, 一定程度上减少了特征扩展过程中产生的冗余变量, 提供了一种利用机器学习方法进行连续时间预测的方案.
2) ?通过分析各个不同特征滞后性的区别, 构建了考虑最大滞后期的LSTM中短期电煤价格预测模型, 对比分析广泛用于电煤价格预测的SVM与BP预测模型, 实验结果证明, 在滚动预测实验中考虑了滞后期的LSTM模型的准确性均高于对照组的传统模型, 以及不考虑滞后期的LSTM对照模型.
3) ?本文提出的电煤价格预测模型是根据市场化角度考虑的中短期价格预测模型,并没有考虑政府决策或社会突发事件对价格的影响,如突如其来的新冠肺炎疫情所造成的影响.这需要后续进一步将政策作为外源输入进行验证分析.总体而言, 该模型具有较高的准确性、可靠性及实用性, 能够为电力现货市场平衡上网电价提供辅助决断.
参考文献
[1] Massimo P, Mauro P, Fabio R. A stochastic network equilibrium model for electric power markets with uncertain demand[J]. Optimization, 2020, 69: 7-8.
[2] Zhu Y Y, Zhu C L, Wu Y X, et al. Research on the influence of coal price fluctuation on electricity price[C]//2019 4th International Conference on Intelligent Green Building and Smart Grid(IGBSG). Yichang, 2019: 581-585.
[3] Jiang S M, Yang C, Guo J T, et al. ARIMA forecasting of China's coal consumption, price and investment by 2030[J]. Energy Sources, Part B: Economics, Planning, and Policy, 2018, 13(3): 190-195. DOI:10.1080/15567249.2017.1423413
[4] Zhao C H, Dassau E, Zisser H C, et al. Online prediction of subcutaneous glucose concentration for type 1 diabetes using empirical models and frequency-band separation[J]. AIChE Journal, 2014, 60(2): 574-584. DOI:10.1002/aic.14288
[5] Arunraj N S, Ahrens D. A hybrid seasonal autoregressive integrated moving average and quantile regression for daily food sales forecasting[J]. International Journal of Production Economics, 2015, 170: 321-335. DOI:10.1016/j.ijpe.2015.09.039
[6] Zheng K, Cai Y, Sun Y. Analysis on influencing factors of coal price in China[C]//11th International Conference on Service Systems and Service Management(ICSSSM). Beijing, 2014: 1-4.
[7] Mu C L, Liu S, Cheng C. Price transmission effect of coal and electricity linkage: a partial transmission input-output analysis[C]//2014 Seventh International Joint Conference on Computational Sciences and Optimization. Beijing, 2014: 351-355.
[8] Yuan C Q, Liu S F, Guo B H. The relationship among non-fossil energy consumption, economic growth and coal prices in China[C]//Proceedings of 2011 IEEE International Conference on Grey Systems and Intelligent Services. Nanjing, 2011: 339-342.
[9] Zhang B, Ma J H. Coal price index forecast by a new partial least-squares regression[J]. Procedia Engineering, 2011(15): 5025-5029.
[10] Ho S L, Xie M, Goh T N. A comparative study of neural network and Box-Jenkins ARIMA modeling in time series prediction[J]. Computers & Industrial Engineering, 2002, 42(2/3/4): 371-375.
[11] Liu S, Huang W J, Zhang G H. Research and prediction of coal price in China[C]// International Conference on Risk Management & Engineering Management. Beijing, 2008: 255-259.
[12] 王明月. GMDH算法的改进及其在煤炭价格系统中的应用[D]. 南京: 南京航空航天大学, 2016.
(Wang Ming-yue. The improvements of GMDH algorithm and its application in coal price system[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2016. )
[13] Zhang Y A, Yan B B, Memon A. A novel deep learning framework: prediction and analysis of financial time series using CEEMD and LSTM[J]. Expert Systems with Applications, 2020, 159: 113609. DOI:10.1016/j.eswa.2020.113609
[14] Feng L J, Zhao C H. Dual attention based encoder-decoder: a customized sequence to sequence learning for the soft sensing of multiple quality variables[J]. IEEE Transactions on Neural Networks and Learning Systems, DOI: 10.1109/TNNLS.2020.3015929.
[15] Feng Y Z, Zhao H W, Chen Y, et al. Price forecasting algorithm for coal and electricity based on PSO and RBF neural network[C]// 2009 IEEE International Conference on Control and Automation. Christchurch, 2009: 1365-1369.
[16] Fan X H, Wang L, Li S S. Predicting chaotic coal prices using a multi-layer perceptron network model[J]. Resources Policy, 2016, 50: 86-92. DOI:10.1016/j.resourpol.2016.08.009
[17] Olivia B, Lailil M. Comparison of Gaussian and ANOVA kernel in support vector regression for predicting coal price[C]//2018 International Conference on Sustainable Information Engineering and Technology(SIET). Malang, Indonesia, 2018: 147-150.
[18] El-HashashE F, El-Absy K M. Methods for determining the tetrachoric correlation coefficient for binary variables[J]. Asian Journal of Probability and Statistics, 2018(1): 1-12.
[19] 鲍硕超, 王清, 鲍新华, 等. 辽阳硅石矿岩质边坡岩体裂隙宽度概率统计[J]. 东北大学学报(自然科学版), 2014, 35(6): 885-889.
(Bao Shuo-chao, Wang Qing, Bao Xin-hua, et al. Probability statistics analysis on rock fractures width at Liaoyang dians rock slope[J]. Journal of Northeastern University(Natural Science), 2014, 35(6): 885-889.)
[20] 王斐, 魏晓童, 秦皞. 基于sEMG和LSTM的下肢连续运动估计[J]. 东北大学学报(自然科学版), 2020, 41(3): 305-310, 342.
(Wang Fei, Wei Xiao-tong, Qin Hao. Estimation of lower limb continuous movements based on sEMG and LSTM[J]. Journal of Northeastern University(Natural Science), 2020, 41(3): 305-310, 342.)
[21] Li X B, Jiang B. Minimum system sensitivity study of linear discrete time systems for fault detection[J]. Mathematical Problems in Engineering, 2013(1): 276987.
[22] Luis E S N, Nathalia D A A, Layzon A L S, et al. Phytochemical profile of different anatomical parts of Jambu(Acmella Oleracea(L.)R.K.Jansen): a comparison between hydroponic and conventional cultivation using PCA and cluster analysis[J]. Food Chemistry, 2020, 332: 127393. DOI:10.1016/j.foodchem.2020.127393

相关话题/空间 中短期 特征 价格

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 状态空间下列车区段晚点预测误差控制
    张路凯,冯雪松北京交通大学交通运输学院,北京100044收稿日期:2020-10-27基金项目:国家自然科学基金资助项目(71571011)。作者简介:张路凯(1988-),男,山东济宁人,北京交通大学博士研究生;冯雪松(1979-),男,吉林省吉林市人,北京交通大学教授,博士生导师。摘要:考虑区段 ...
    本站小编 Free考研考试 2021-12-15
  • 基于改进遗传算法的空间信息网恢复策略
    刘军1,杨青文1,王金涛2,刘华伟11.东北大学计算机科学与工程学院,辽宁沈阳110169;2.沈阳航空航天大学民用航空学院,辽宁沈阳110135收稿日期:2020-04-26基金项目:国家自然科学基金资助项目(61671141)。作者简介:刘军(1969-),男,辽宁沈阳人,东北大学副教授。摘要: ...
    本站小编 Free考研考试 2021-12-15
  • 基于分形理论的辽宁城市群人地关系特征时空演变
    王雨枫1,曹洪军1,21.中国海洋大学环境科学与工程学院,山东青岛266100;2.中国海洋大学管理学院/管理创新与环境战略研究中心,山东青岛266100收稿日期:2020-05-20基金项目:国家自然科学基金资助项目(71603142);山东省社会科学规划研究项目(19CXSXJ05)。作者简介: ...
    本站小编 Free考研考试 2021-12-15
  • 四维欧氏空间中的广义常斜坡曲面
    于延华,贾琨东北大学理学院,辽宁沈阳110819收稿日期:2020-07-13基金项目:中央高校基本科研业务费专项资金资助项目(N170504014)。作者简介:于延华(1978-),女,湖北荆门人,东北大学副教授,博士。摘要:利用曲面位置向量的正交分解式研究四维欧氏空间中的一类广义常斜坡曲面(即曲 ...
    本站小编 Free考研考试 2021-12-15
  • 量子化信息素蚁群优化特征选择算法
    李占山1,2,刘兆赓2,俞寅2,鄢文浩21.吉林大学计算机科学与技术学院,吉林长春130012;2.吉林大学软件学院,吉林长春130012收稿日期:2019-02-01基金项目:国家自然科学基金资助项目(61672261);吉林省自然科学基金资助项目(2018010143JC);吉林省发展和改革委员 ...
    本站小编 Free考研考试 2020-03-23
  • 空间交互视角下投资者情绪对股价的影响
    姜尚伟,金秀东北大学工商管理学院,辽宁沈阳110169收稿日期:2019-04-16基金项目:国家自然科学基金资助项目(71571041)。作者简介:姜尚伟(1992-),女,辽宁沈阳人,东北大学博士研究生;金秀(1963-),女,辽宁辽阳人,东北大学教授,博士生导师。摘要:从地理距离和利用消耗系数 ...
    本站小编 Free考研考试 2020-03-23
  • 基于有向网络的人物信息诱发脑电信号特征
    常文文1,2,王宏1,化成城1,王翘秀11.东北大学机械工程与自动化学院,辽宁沈阳110819;2.洛桑联邦理工学院神经义肢中心,瑞士洛桑1015收稿日期:2017-10-29基金项目:国家自然科学基金资助项目(51405173);辽宁省创新团队项目(LT2014006)。作者简介:常文文(1987 ...
    本站小编 Free考研考试 2020-03-23
  • 三维Minkowski空间中的圆纹曲面
    钱金花,付雪山东北大学理学院,辽宁沈阳110819收稿日期:2017-10-17基金项目:国家自然科学基金资助项目(11801065,11371080)。作者简介:钱金花(1979-),女,河北唐山人,东北大学副教授。摘要:在三维闵可夫斯基(Minkowski)空间中定义了以类时曲线为脊线的圆纹(c ...
    本站小编 Free考研考试 2020-03-23
  • 合仁坪金矿H-O-S-Pb同位素地球化学特征及其成因机制
    贾三石1,冷文芳2,王恩德3,谷鸿飞31.东北大学秦皇岛分校资源与材料学院,河北秦皇岛066004;2.辽宁省矿产勘查院,辽宁沈阳110032;3.东北大学资源与土木工程学院,辽宁沈阳110819收稿日期:2017-11-15基金项目:国家自然科学基金资助项目(41372098)。作者简介:贾三石( ...
    本站小编 Free考研考试 2020-03-23
  • 关于股票价格的二阶模糊时间序列
    刘智1,2,张铁1,董莹3,徐爽爽21.东北大学理学院,辽宁沈阳110819;2.沈阳工业大学基础部,辽宁辽阳111003;3.大连民族大学理学院,辽宁大连116600收稿日期:2017-12-06基金项目:国家自然科学基金专项基金天元访问学者项目(11726616);辽宁省博士科研启动基金资助项目 ...
    本站小编 Free考研考试 2020-03-23