QUICK REVIEW

[论文解读] Learning and Policy Search in Stochastic Dynamical Systems with Bayesian Neural Networks

Stefan Depeweg, José Miguel Hernández-Lobato|arXiv (Cornell University)|May 23, 2016

Energy Load and Power Forecasting被引用 33

一句话总结

本文提出了一种基于模型的强化学习框架，利用带有随机输入噪声的贝叶斯神经网络（BNNs）来建模动力系统中的复杂随机动力学。通过以 α=0.5 的 α-散度最小化方式训练 BNNs，该方法能够捕捉多模态和异方差的转移模式，从而通过随机滚动仿真和随机优化实现有效的策略搜索，在一个20年的基准测试和真实世界的燃气轮机控制任务中达到了最先进性能。

ABSTRACT

We present an algorithm for model-based reinforcement learning that combines Bayesian neural networks (BNNs) with random roll-outs and stochastic optimization for policy learning. The BNNs are trained by minimizing $\\alpha$-divergences, allowing us to capture complicated statistical patterns in the transition dynamics, e.g. multi-modality and heteroskedasticity, which are usually missed by other common modeling approaches. We illustrate the performance of our method by solving a challenging benchmark where model-based approaches usually fail and by obtaining promising results in a real-world scenario for controlling a gas turbine.

研究动机与目标

解决标准基于模型的强化学习在捕捉复杂随机动力学（如多模态性和异方差性）方面的局限性。
在探索受限的离策略批量场景中实现稳健的策略学习，此类场景在工业应用中很常见。
克服以往基于模型的方法在长期存在的 Wet-Chicken 基准问题上的失败。
开发一种可扩展且表达能力强的框架，利用带有随机输入的贝叶斯神经网络来建模随机转移。
在真实世界的工业控制任务（包括燃气轮机运行）中证明该方法的有效性。

提出的方法

使用带有额外随机输入噪声变量 $ z $ 的贝叶斯神经网络（BNNs）来建模随机动力学，以捕捉未观测到的环境扰动。
通过最小化 α-散度（$ \alpha = 0.5 $）来训练 BNNs，该方法相比变分贝叶斯能提供更精确的后验近似。
利用训练好的 BNNs 对不同动作下的状态轨迹进行随机滚动仿真，以模拟系统在不确定性下的行为。
通过在滚动仿真结果上最大化期望累积奖励，应用随机优化来学习参数化策略。
利用 BNN 的预测不确定性来指导策略优化，特别是在高不确定性或双模态区域。
在策略评估前采用随机探索的预热阶段，以稳定自回归动力学中的学习过程。

实验结果

研究问题

RQ1带有随机输入的贝叶斯神经网络是否能比确定性模型或高斯过程更有效地建模复杂随机动力学（如多模态性和异方差性）？
RQ2在 α=0.5 的 α-散度最小化下，BNN 的后验近似是否优于变分贝叶斯方法，从而提升随机系统中策略学习的性能？
RQ3所提出的方法是否能成功解决长期存在的 Wet-Chicken 基准问题，该问题曾因长时域不确定性传播而使以往基于模型的方法失效？
RQ4基于随机滚动仿真和随机优化的策略学习算法在真实世界工业控制场景（如燃气轮机运行）中的有效性如何？
RQ5BNN 的预测不确定性在离策略批量学习中在多大程度上提升了策略的鲁棒性和样本效率？

主要发现

在 Wet-Chicken 基准测试中，带有随机输入和 α=0.5 散度最小化的 BNN 在建模复杂、多模态转移动力学方面优于高斯过程和标准 MLP。
该方法成功解决了存在20年之久的 Wet-Chicken 基准问题，该问题曾因长时域不确定性传播而使基于模型的方法难以应对。
在该基准测试中，α=0.5 和 α=1.0 的 BNN 在测试对数似然上表现最佳且误差最低，而高斯过程和 MLP 表现较差。
BNN 生成的预测分布具有更紧密的置信带，并能捕捉双模态轨迹分布，而 MLP 则完全遗漏了某些模式。
在真实世界的燃气轮机控制中，该方法取得了有前景的结果，证明了其在探索受限的工业环境中的适用性。
基于随机滚动仿真和随机优化的策略优化在平均奖励上表现优异，其中 α=1.0 和 α=0.5 的 BNN 表现最佳。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。