QUICK REVIEW

[论文解读] Variational Inference MPC for Bayesian Model-based Reinforcement Learning

Masashi Okada, Tadahiro Taniguchi|arXiv (Cornell University)|Jul 8, 2019

Reinforcement Learning in Robotics参考文献 38被引用 29

一句话总结

本文提出变分推理模型预测控制（VI-MPC），一种贝叶斯框架，将随机模型预测控制（MPC）方法（如CEM）统一地重新表述为一种兼顾不确定性的方法。它引入了带轨迹采样的概率动作集合（PaETS），通过高斯混合模型（GMM）对多模态动作不确定性进行建模，在MuJoCo运动控制任务中显著提升了PETS的渐近性能，实现了对动力学和最优轨迹的联合不确定性建模。

ABSTRACT

In recent studies on model-based reinforcement learning (MBRL), incorporating uncertainty in forward dynamics is a state-of-the-art strategy to enhance learning performance, making MBRLs competitive to cutting-edge model free methods, especially in simulated robotics tasks. Probabilistic ensembles with trajectory sampling (PETS) is a leading type of MBRL, which employs Bayesian inference to dynamics modeling and model predictive control (MPC) with stochastic optimization via the cross entropy method (CEM). In this paper, we propose a novel extension to the uncertainty-aware MBRL. Our main contributions are twofold: Firstly, we introduce a variational inference MPC, which reformulates various stochastic methods, including CEM, in a Bayesian fashion. Secondly, we propose a novel instance of the framework, called probabilistic action ensembles with trajectory sampling (PaETS). As a result, our Bayesian MBRL can involve multimodal uncertainties both in dynamics and optimal trajectories. In comparison to PETS, our method consistently improves asymptotic performance on several challenging locomotion tasks.

研究动机与目标

解决现有不确定性感知MBRL方法在最优轨迹中无法建模多模态不确定性的问题。
将CEM、MPPI和CMA-ES等随机MPC方法统一于单一贝叶斯变分推理框架下。
通过在动力学和动作轨迹中同时引入不确定性，提升MBRL在具有挑战性的运动控制任务中的渐近性能。
开发一种简单但有效的PETS扩展方法，提升样本效率与泛化能力，且不增加计算开销。

提出的方法

提出一种新颖的VI-MPC框架，将MPC表述为变分推理，将轨迹优化视为贝叶斯MBRL框架下的后验近似。
将随机MPC方法重新表述为最优轨迹后验的矩匹配过程，实现统一的贝叶斯解释。
提出PaETS，作为VI-MPC的一个具体实例，采用类别混合模型（GMM）作为动作上的变分分布，以捕捉多模态不确定性。
采用可微分的基于GMM的变分分布 $ q(\mathbf{a}; \phi) $ 表示动作分布，支持端到端的梯度优化。
应用重参数化技巧，实现通过GMM的反向传播，从而高效优化变分参数。
应用熵正则化以促进探索并提升动作集合的多样性，与多模态不确定性建模相辅相成。

实验结果

研究问题

RQ1能否将CEM和MPPI等随机MPC方法系统性地统一于贝叶斯变分推理框架下？
RQ2在最优轨迹中建模多模态不确定性是否能提升MBRL的渐近性能？
RQ3通过基于GMM的变分分布，在动力学和动作轨迹中同时引入不确定性，是否能超越现有不确定性感知的MBRL基线方法？
RQ4最优性定义的选择（如CEM与MPPI）以及正则化权重对不同任务性能的影响如何？

主要发现

PaETS在多个MuJoCo运动控制任务（包括Ant、HalfCheetah和Walker2d）中持续优于PETS基线，性能提升具有统计显著性（p < 0.01）。
该方法实现了高于PETS的渐近性能，表明建模多模态动作不确定性可有效提升策略学习效率与样本效率。
实验表明，PaETS中使用M=5个分量的GMM可获得最佳性能，表明中等规模的集合已足够实现有效的多模态表征。
正则化权重 $ \kappa $ 存在与任务相关的最优值，过高或过低均导致性能下降，表明对超参数调优较为敏感。
所提出的VI-MPC框架在不同任务间泛化能力良好，基于MPPI的最优性在Ant等环境中优于原始CEM，表明任务特定的最优性选择具有优势。
与PETS相比，该方法未显著增加计算成本，使其成为现有MBRL流程中实用且可扩展的改进方案。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。