[论文解读] Learning Scalable Deep Kernels with Recurrent Structure
该论文提出GP-LSTM,一种基于LSTM衍生的循环核结构的高斯过程模型,实现了可扩展的、具备不确定性感知能力的序列建模。通过采用证明收敛的半随机梯度方法学习核参数,并利用Kronecker-circulant结构,该方法在序列回归任务上实现了最先进性能,训练时间线性增长,预测时间恒定。
Many applications in speech, robotics, finance, and biology deal with sequential data, where ordering matters and recurrent structures are common. However, this structure cannot be easily captured by standard kernel functions. To model such structure, we propose expressive closed-form kernel functions for Gaussian processes. The resulting model, GP-LSTM, fully encapsulates the inductive biases of long short-term memory (LSTM) recurrent networks, while retaining the non-parametric probabilistic advantages of Gaussian processes. We learn the properties of the proposed kernels by optimizing the Gaussian process marginal likelihood using a new provably convergent semi-stochastic gradient procedure, and exploit the structure of these kernels for scalable training and prediction. This approach provides a practical representation for Bayesian LSTMs. We demonstrate state-of-the-art performance on several benchmarks, and thoroughly investigate a consequential autonomous driving application, where the predictive uncertainties provided by GP-LSTM are uniquely valuable.
研究动机与目标
- 解决深度循环模型在序列数据中缺乏不确定性量化的问题。
- 将LSTM的归纳偏置嵌入基于核的高斯过程框架中。
- 通过结构化核近似,实现在大规模序列数据集上的可扩展训练与预测。
- 开发一种用于学习循环核参数的证明收敛的优化过程。
- 在真实世界的序列任务上展示最先进性能,包括自动驾驶。
提出的方法
- 提出一种闭式核函数,完整封装长短期记忆(LSTM)网络的归纳偏置。
- 使用高斯过程边缘似然作为核学习的目标函数,实现概率预测。
- 采用具有收敛性保证的半随机梯度方法,优化核参数。
- 通过将协方差矩阵分解为循环矩阵的Kronecker积,利用代数结构,实现O(n)训练和O(1)预测。
- 通过与Keras兼容的高斯过程层,将模型集成到深度学习框架中。
- 将模型应用于序列到实数的回归任务,包括系统辨识和自动驾驶车辆感知。
实验结果
研究问题
- RQ1高斯过程模型能否有效捕捉LSTM在序列数据上的归纳偏置?
- RQ2循环GP的核参数能否实现高效学习并具有收敛性保证?
- RQ3使用结构化核近似是否能实现在大规模序列数据集上的线性时间训练和恒定时间预测?
- RQ4模型的预测不确定性在自动驾驶等安全关键应用中是否能提升性能?
- RQ5所提方法能否在序列回归基准上实现最先进性能?
主要发现
- GP-LSTM模型在多个序列回归基准上实现最先进性能,包括系统辨识、能源预测和自动驾驶任务。
- 由于核矩阵的Kronecker-circulant分解,模型在训练时间上呈线性扩展,预测时间恒定。
- 半随机优化过程相比标准一阶方法,在运行时间和解质量方面均有显著提升。
- 在自动驾驶应用中,模型的预测不确定性可实现更安全、更可靠的车道估计和前车跟踪。
- 在包含近百万个时间步的真实世界数据集上,该模型在准确性和不确定性校准方面均优于非概率深度学习基线模型。
- 代码以Keras兼容库形式发布,可轻松集成至深度学习流水线,修改极少。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。