[论文解读] Exploring Interpretable LSTM Neural Networks over Multi-Variable Data
本文提出了 IMV-LSTM,一种可解释的多变量 LSTM,学习逐变量的隐藏状态并使用混合注意力共同预测目标并量化变量与时间的重要性。
For recurrent neural networks trained on time series with target and exogenous variables, in addition to accurate prediction, it is also desired to provide interpretable insights into the data. In this paper, we explore the structure of LSTM recurrent neural networks to learn variable-wise hidden states, with the aim to capture different dynamics in multi-variable time series and distinguish the contribution of variables to the prediction. With these variable-wise hidden states, a mixture attention mechanism is proposed to model the generative process of the target. Then we develop associated training methods to jointly learn network parameters, variable and temporal importance w.r.t the prediction of the target variable. Extensive experiments on real datasets demonstrate enhanced prediction performance by capturing the dynamics of different variables. Meanwhile, we evaluate the interpretation results both qualitatively and quantitatively. It exhibits the prospect as an end-to-end framework for both forecasting and knowledge extraction over multi-variable data.
研究动机与目标
- 为带有目标变量和外生变量的多变量时间序列提供可解释的预测动机。
- 开发一种神经架构,学习逐变量隐藏状态以捕获异质动态。
- 引入混合注意力机制来建模目标的生成过程。
- 提供一种联合学习网络参数、变量重要性和时间重要性的训练方法。
- 在真实世界数据集上展示更好的预测性和可解释性。
提出的方法
- 引入 IMV-LSTM,其隐藏状态矩阵的每一行(每个变量)编码变量特定的动态。
- 定义输入到隐藏层和隐藏层到隐藏层的变换为跨变量的张量点积运算,以获得逐变量更新(IMV-Full 和 IMV-Tensor 变体)。
- 提出一种混合注意力机制,将每个变量的时间注意力与对变量的变量级注意力结合起来,以预测 y_{T+1}。
- 用一个潜在离散 z_{T+1} 表示驱动预测的变量,模型目标分布,使用基于 EM 的学习来联合估计参数和重要性分数。
- 从学习到的后验和注意力值推导变量重要性 I 和变量相关的时间重要性 T^n,实现端到端解释。
- 通过加权混合提供预测: hat{y}_{T+1} = sum_n mu_n * Pr(z_{T+1}=n | ...)。
实验结果
研究问题
- RQ1如何将 LSTM 的隐藏状态结构化以反映多变量时间序列中的逐变量贡献?
- RQ2混合注意力机制是否能够捕捉对目标预测的变量维度和时间影响?
- RQ3如何以端到端方式同时学习模型参数与可解释的重要性度量?
- RQ4与标准多变量 RNN 和可解释基线相比,逐变量隐藏状态是否提高预测准确性?
- RQ5得到的变量和时间重要性度量是否具有意义并与领域知识一致?
主要发现
- IMV-LSTM 变体在 PM2.5、PLANT 和 SML 数据集上相对于统计、机器学习和深度基线显示出更好的预测性能。
- IMV-Full 与 IMV-Tensor 保留逐变量结构,显示出可比或最佳结果,通常 IMV-Tensor 因独立逐变量更新而表现最好。
- 该框架产生的可解释的变量重要性排序与领域知识一致(如风速、气压、日照、湿度)。
- 时间重要性分析揭示变量在短期和长期上的特定影响,提供关于不同变量在何时对预测重要的洞察。
- 基于 EM 的端到端训练程序能够学习网络参数和全局重要性向量,无需事后解释。
- 与标准 LSTM 相比,该方法降低参数数量并保持可比或更低的计算复杂度,特别是当变量数量增加时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。