引 言
随着自然变迁和人为活动的剧烈影响,径流信号所表现出的多时间尺度变化特性和非平稳特性,给径流序列的预测以及洪水预报带来了新的挑战。当前针对洪水预测的研究十分广泛,如何针对不同流域、不同环境,提出更加精准、高效的预报模型,是水文预报人员需迫切展开的工作。
目前,国内外针对洪水预测的研究可以分为两种:一种是基于物理认识的机理驱动模型,例如以暴雨洪水管理模型为基础,进行区域暴雨模拟并评价其影响。或者针对防洪系统的联合调度建立动态规划模型。然而,机理驱动模型往往存在机理认识不深刻、人为主观因素影响大等问题。另一种是以统计科学为基础的数据驱动模型。数据驱动模型又可分为单体模型和混合模型。例如将线性ARX系统应用于区域降雨与径流的相关性计算,进而分析河流径流,以达到洪水预测的效果。SOEBROTO等利用支持向量回归模型(Support Vector Regression, SVR)预测未来~ h的山洪暴发概率。有研究通过分析地理信息系统相关数据,以高程数据作为输入,径流量作为输出,利用人工神经网络(Artificial Neural Network, ANN)对洪水进行预测。然而,单体模型往往存在预测精度低,模型稳定性差等问题。混合模型可有效解决单体模型的不足,例如粒子群算法(Particle Swarm Optimization, PSO)和遗传算法(Genetic Algorithm, GA)可有效解决神经网络易陷入局部最优的问题。利用集成卡尔曼滤波器来考虑初始条件下降水不确定性问题,可以有效提高预测模型的精度。将随机森林模型与洪水水位图模型进行结合,实验表明相比传统降水指数模型,混合模型精度更高。将小波分解和ANN相结合可有效提高ANN的预测精度。但是小波分解对实际应用中广泛存在的白噪声的去噪效果较差。
经验模态分解(Empirical Mode Decomposition, EMD)依据数据自身的时间尺度特征进行信号分解,无须预先设定任何基函数,因此与傅里叶分解和小波分解具有本质差别。将M树与EMD进行结合以构建多元经验模式分解(MEMD-M),并应用在洪水预测领域,试验表明MEMD-M模型相比于独立RF模型效果更优。将经验模式分解和K近邻回归模型(K Nearest Neighbor, K-NN)相结合,应用于年均降水预报,实验结果表明,混合模型相比于K-NN模型,平均相对误差(Mean Relative Error, MRA)和均方根误差(Root Mean Square Error, RMSE)分别降低了近%。然而,EMD在利用三次样条函数求取信号上下包络线时,端点处缺乏极值点约束产生发散,导致分解结果失去物理意义。
基于以上讨论,文章提出一种基于改进经验模态分解的深度学习预测模型(EMD-LSTM)。该模型首先利用极限学习机(Extreme Learning Machine, ELM)改进EMD端点效应,然后利用改进的EMD方法将非稳态径流信号分解为若干本征模态分量(Intrinsic Mode Function, IMF),然后将转变后的稳态分量输入长短时记忆神经网络(LSTM),从而有效提高LSTM模型的预测精度。同时,考虑到洪水预测预警的实时性要求,文章将并行计算思想引入EMD-LSTM模型中,通过构建并行LSTM模型,提高模型整体运行效率。经验证,并行EMD-LSTM模型相比于传统LSTM模型,预测精准度提高.%,可信度提高.%,效率提高.%,是一种有效、可行的洪水智能预测方法。
. LSTM深度学习
循环神经网络(RNN)是一种用于处理序列数据的神经网络,LSTM是一种特殊的RNN,可以有效记忆长系列历史数据规律。LSTM利用两个门来控制单元状态c的内容,一个是遗忘门,另一个是输入门。
遗忘门公式为
式中,Wf是遗忘门的权重矩阵;ht-是t-时刻的隐含状态;xt是t时刻的输入向量;bf是遗忘门的偏置项;σ是sigmoid函数。
输入门公式为
式中,Wi是输入门的权重矩阵;bi是输入门的偏置项,用于描述当前时刻单元状态。
输出门负责控制长期记忆对当前输出的影响,公式为
LSTM的最终输出,由输出门和单元状态共同确定,公式为
式中,符号 表示按元素相乘。
LSTM成功地解决了原始循环神经网络梯度消失的缺陷,相比于RNN更适合处理和预测延迟相对较长的时序数据,其基本结构如图所示。
. 经验模态分解
经验模态分解是依据数据自身的时间尺度特征来进行信号分解,无须预先设定任何基函数,可以应用于任何类型信号的分解,因而在处理非平稳及非线性数据上,具有很高的信噪比。图给出了EMD方法对径流序列的分解结果,EMD方法的基本实现方式如下。
首先获取原始径流信号f(t)的极大值和极小值,然后通过三次样条插值法对极值点进行拟合,得到径流信号的上下包络线,然后计算上下包路线的平均m(t),公式为
式中,fmax(t)和fmin(t)分别为上包络线和下包络线。原始信号f(t)与平均包络m(t)相减,得到余下的信号c(t),即一阶IMF。将信号f(t)与c(t)求差,获得一阶余量r(t)。将r(t)替代原始信号f(t),然后重复以上步骤,即可获得若干IMF。经EMD分解后的原始信号f(t),可表示为
式中,ci(t),rn(t)分别为IMF分量和余量。
. 极限学习机改进EMD端点效应
EMD产生端点效应是因为采用三次样条插值法求取包络线的过程中,由于信号两端点不一定为极值点,使得包络线在信号两端出现发散现象,从而导致IMF分量在两端出现发散。本文利用ELM方法,根据径流序列时间特性在端点处的具体形式对其加以延拓,基本实现方式如下。
()对原始径流信号前向、后向分别利用“交叉验证法”将数据集D划分为k个大小相似的互斥子集,每次利用k-个子集的并集作为训练集,余下的子集作为测试集。然后将相邻的若干数据作为输入向量,并且将与之相连的若干数据作为输出向量。
()将训练集和测试集先后输入极限学习机模型,最终利用端点处的输出向量作为序列两端的拓延信号。
()将极限学习机的输出序列与原始序列构成一个新的时序信号,并对新的时序信号进行EMD分解,然后舍去各阶IMF分量中的拓延序列段,从而达到抑制EMD端点效应的目的。
. 并行EMD-LSTM洪水预测方法构建
文章提出一种增强型深度学习模型,该模型首先利用极限学习机改进EMD端点效应,然后将改进的EMD方法引入LSTM模型,并结合并行思想,提出以“分解-合成”策略为主的深度学习模型。其基本实现方式如下。
()以黄河流域石嘴山水文站为试验对象,实时获取石嘴山水文站径流信号f(t),通过数据清洗技术,对空数据,非数值型数据等非法数据进行过滤。
()将过滤后的数据首先进行边界拓延,之后对拓延信号进行EMD分解,将非稳态时序信号分解为若干本征模态分量。然后将各分量的相邻若干数据作为输入向量,与之相连的若干数据作为输出向量,并使用“交叉验证法”将数据集D划分为k个大小相似的互斥子集,每次用k-个子集的并集作为训练集,余下的子集作为测试集。LSTM输入向量的详细构建步骤如图所示。
()通过将LSTM的输入和神经元状态划分为独立的组可以有效减少参数量并加速LSTM的训练速度。假设输入向量xt和隐藏状态ht的某些部分可以被认为是独立的特征组。则将LSTM划分为K组定义为
()为满足洪水预测实时性要求,本文构建一种基于自适应任务粒度控制的并行EMD-LSTM模型。自适应任务粒度控制主要包括基于无锁队列的任务窃取调度、自适应任务粒度控制调度、分组调度。此外,LSTM包含三种不同并行策略,分别是数据并行、模型并行和模型计算流水线并行。根据本文所采用的这种“分解-合成”数据处理思想,拟采用模型计算流水线并行作为EMD-LSTM并行计算策略,并采用集中调度的动态任务分配方案为各个输入向量分配子任务。实现方式如图所示。
()最后,根据不同子任务预测的本征模态分量输出值,进行数据聚合,其中聚合方式为
. 模型评估
纳什效率系数(Ens)是评估观测值和预测值之间差异的指标,用以验证水文模型模拟结果的好坏。Ens接近,表示模型质量好,可信度高;Ens接近,表示模拟结果接近观测值的平均值水平,即总体结果可信;Ens小于,则模型是不可信的。平均绝对误差(MAE)表示预测值和观测值之间绝对误差的平均值。相对误差(RE)是指预测值所造成的绝对误差与观测值之比。Ens的计算公式为
式中,Qo、Qf、Qo¯¯¯¯Qo¯、Qf¯¯¯¯Qf¯分别代表径流量观测值、预测值、平均观测值、平均预测值。
黄河流域石嘴山水文站作为黄河上游段最重要的水文站之一,其防洪蓄洪能力直接影响着中下游洪水情况。文章选取石嘴山水文站—年径流观测数据作为试验对象,以传统LSTM为对比算法,并以Ens作为可信度评估标准,以MAE、RE作为精准度评估标准,运行时间作为执行效率的评估标准,来综合评估并行EMD-LSTM模型性能。图给出了通过极限学习机抑制EMD端点效应的效果。
图中,黑色曲线,蓝色曲线,红色曲线分别代表端点极值已知,智能拓延和端点极值未知的情况。可以发现,每个IMF都出现了不同程度的端点效应,并且会逐渐向内扩散。而通过智能拓延处理的IMF端点效应得到了较好的改善。
图中,预测未来 d、 d、 d的流量,EMD-LSTM相对LSTM精度更高,拟合效果更优。并且,通过实验发现,在已知预测时间的情况下,通过调整数据量,LSTM模型相对于EMD-LSTM模型具有更大的波动性,EMD-LSTM相对LSTM表现更加稳定。
图给出了EMD-LSTM和LSTM的实时误差。从图中可以看到,预测未来 d、d、 d的流量,EMD-LSTM实时误差平均低于.%,而LSTM则平均低于.%。预测未来 d、 d、 d的流量,EMD-LSTM相对于LSTM预测精度更高。
综合图与表我们可以看到EMD-LSTM模型相对于LSTM,Ens水平更高,表明其可信度相对LSTM更高,而且运行时间更短,效率更高。LSTM模型的Ens处于.~.的水平,运行时间为.~. s; EMD-LSTM模型Ens处于.~.的水平,运行时间为.~. s。
图反映了EMD-LSTM和LSTM的实时可信度变化,预测未来 d、d、 d的流量,两种算法Ens整体接近.,预测未来 d、 d、 d的流量,LSMT分别是.、.、.,均低于EMD-LSTM的.。
当前,水文,气象耦合下的径流波动不断加剧,给洪水预测工作的时效性和准确性以及可信度提出了更高的要求。本文将EMD方法引入LSTM,构建出的EMD-LSTM模型更加适用于时间序列的预测。通过与传统深度神经网络的分析对比,得出EMD-LSTM模型无论在精度(MAE)层面,还是效率层面,亦或是可信度层面都要优于原生LSTM模型。然而,由于本文所提出的EMD-LSTM间接地加入了“分解-合成”的过程,使得模型增加了额外的数据处理消耗,虽然本文所引入的并行策略能在一定程度缓解消耗,但仍不能从根本上解决该问题。