[论文解读] An interpretable LSTM neural network for autoregressive exogenous model
本文提出了一种多变量LSTM(MV-LSTM),通过将隐藏状态结构化为张量以编码变量特异性表征,实现了自回归外生(ARX)时间序列预测中的时序注意力与变量级注意力。该模型实现了具有竞争力的预测性能,并展现出通过注意力学习到的变量重要性与统计格兰杰因果关系之间强烈的对齐,从而在真实世界数据集中实现了可解释的知识发现。
In this paper, we propose an interpretable LSTM recurrent neural network, i.e., multi-variable LSTM for time series with exogenous variables. Currently, widely used attention mechanism in recurrent neural networks mostly focuses on the temporal aspect of data and falls short of characterizing variable importance. To this end, our multi-variable LSTM equipped with tensorized hidden states is developed to learn variable specific representations, which give rise to both temporal and variable level attention. Preliminary experiments demonstrate comparable prediction performance of multi-variable LSTM w.r.t. encoder-decoder based baselines. More interestingly, variable importance in real datasets characterized by the variable attention is highly in line with that determined by statistical Granger causality test, which exhibits the prospect of multi-variable LSTM as a simple and uniform end-to-end framework for both forecasting and knowledge discovery.
研究动机与目标
- 解决标准LSTM中缺乏变量级可解释性的问题,后者对所有输入变量一视同仁,无法区分其个体贡献。
- 开发一个统一的端到端框架,支持在具有外生变量的多元时间序列中实现高精度预测与可解释的知识发现。
- 通过将隐藏状态重新定义为张量化表征,实现在RNN中的变量级注意力,每个张量编码来自单一输入变量的信息。
- 验证MV-LSTM中学习到的变量注意力与格兰杰因果等既定因果影响度量之间存在有意义的相关性。
提出的方法
- MV-LSTM使用张量化隐藏状态,其中隐藏状态张量的每个元素专属于一个输入变量,从而实现变量特异性表征。
- 该模型采用张量化输入到隐藏及隐藏到隐藏的转移机制,为每个变量配置独立的权重矩阵,确保各变量间的信息隔离。
- 门控机制(输入门、遗忘门、输出门)基于所有输入变量的共享联合表征计算,以保留时间序列间的交叉相关性。
- 通过将前馈网络应用于每个变量的最终隐藏状态来计算变量级注意力,生成集成预测的注意力权重。
- 时间注意力也得到支持,但本文重点聚焦于变量级注意力以实现可解释性。
- 最终预测为各变量特异性预测的加权和,注意力权重通过softmax归一化。
实验结果
研究问题
- RQ1基于LSTM的模型能否学习到反映外生变量对目标时间序列真实影响的可解释变量级注意力?
- RQ2通过MV-LSTM注意力得出的变量重要性与通过统计格兰杰因果关系获得的结果相比如何?
- RQ3与最先进注意力机制RNN及传统集成模型相比,MV-LSTM是否实现了具有竞争力的预测性能?
- RQ4MV-LSTM能否作为统一的端到端框架,同时实现多元时间序列的高精度预测与因果知识发现?
主要发现
- MV-LSTM在PM2.5数据集上实现了最先进预测性能,测试RMSE为0.340 ± 0.001,优于随机森林(RF)、XGBoost、DUAL和RETAIN。
- 在ENERGY数据集上,MV-LSTM的测试RMSE为0.361 ± 0.001,与XGBoost性能相当,优于DUAL和RETAIN。
- 在PM2.5数据集中,MV-LSTM按平均注意力得分排名前四的变量——露点、气压、温度和风速——与格兰杰因果关系识别出的因果影响显著变量高度一致。
- MV-LSTM基于注意力的变量重要性与领域知识一致:例如,露点和气压受北风影响,这一现象在它们的高注意力得分中得到体现。
- 相比之下,DUAL模型无法生成有意义的变量重要性(见附录),凸显了MV-LSTM结构化注意力机制的优势。
- 结果表明,MV-LSTM提供了一个简洁统一的框架,可同时实现多元时间序列的高精度预测与可解释的因果分析。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。