Skip to main content
QUICK REVIEW

[论文解读] Variational Inference MPC for Bayesian Model-based Reinforcement Learning

Masashi Okada, Tadahiro Taniguchi|arXiv (Cornell University)|Jul 8, 2019
Reinforcement Learning in Robotics参考文献 38被引用 29
一句话总结

本文提出变分推理模型预测控制(VI-MPC),一种贝叶斯框架,将随机模型预测控制(MPC)方法(如CEM)统一地重新表述为一种兼顾不确定性的方法。它引入了带轨迹采样的概率动作集合(PaETS),通过高斯混合模型(GMM)对多模态动作不确定性进行建模,在MuJoCo运动控制任务中显著提升了PETS的渐近性能,实现了对动力学和最优轨迹的联合不确定性建模。

ABSTRACT

In recent studies on model-based reinforcement learning (MBRL), incorporating uncertainty in forward dynamics is a state-of-the-art strategy to enhance learning performance, making MBRLs competitive to cutting-edge model free methods, especially in simulated robotics tasks. Probabilistic ensembles with trajectory sampling (PETS) is a leading type of MBRL, which employs Bayesian inference to dynamics modeling and model predictive control (MPC) with stochastic optimization via the cross entropy method (CEM). In this paper, we propose a novel extension to the uncertainty-aware MBRL. Our main contributions are twofold: Firstly, we introduce a variational inference MPC, which reformulates various stochastic methods, including CEM, in a Bayesian fashion. Secondly, we propose a novel instance of the framework, called probabilistic action ensembles with trajectory sampling (PaETS). As a result, our Bayesian MBRL can involve multimodal uncertainties both in dynamics and optimal trajectories. In comparison to PETS, our method consistently improves asymptotic performance on several challenging locomotion tasks.

研究动机与目标

  • 解决现有不确定性感知MBRL方法在最优轨迹中无法建模多模态不确定性的问题。
  • 将CEM、MPPI和CMA-ES等随机MPC方法统一于单一贝叶斯变分推理框架下。
  • 通过在动力学和动作轨迹中同时引入不确定性,提升MBRL在具有挑战性的运动控制任务中的渐近性能。
  • 开发一种简单但有效的PETS扩展方法,提升样本效率与泛化能力,且不增加计算开销。

提出的方法

  • 提出一种新颖的VI-MPC框架,将MPC表述为变分推理,将轨迹优化视为贝叶斯MBRL框架下的后验近似。
  • 将随机MPC方法重新表述为最优轨迹后验的矩匹配过程,实现统一的贝叶斯解释。
  • 提出PaETS,作为VI-MPC的一个具体实例,采用类别混合模型(GMM)作为动作上的变分分布,以捕捉多模态不确定性。
  • 采用可微分的基于GMM的变分分布 $ q(\mathbf{a}; \phi) $ 表示动作分布,支持端到端的梯度优化。
  • 应用重参数化技巧,实现通过GMM的反向传播,从而高效优化变分参数。
  • 应用熵正则化以促进探索并提升动作集合的多样性,与多模态不确定性建模相辅相成。

实验结果

研究问题

  • RQ1能否将CEM和MPPI等随机MPC方法系统性地统一于贝叶斯变分推理框架下?
  • RQ2在最优轨迹中建模多模态不确定性是否能提升MBRL的渐近性能?
  • RQ3通过基于GMM的变分分布,在动力学和动作轨迹中同时引入不确定性,是否能超越现有不确定性感知的MBRL基线方法?
  • RQ4最优性定义的选择(如CEM与MPPI)以及正则化权重对不同任务性能的影响如何?

主要发现

  • PaETS在多个MuJoCo运动控制任务(包括Ant、HalfCheetah和Walker2d)中持续优于PETS基线,性能提升具有统计显著性(p < 0.01)。
  • 该方法实现了高于PETS的渐近性能,表明建模多模态动作不确定性可有效提升策略学习效率与样本效率。
  • 实验表明,PaETS中使用M=5个分量的GMM可获得最佳性能,表明中等规模的集合已足够实现有效的多模态表征。
  • 正则化权重 $ \kappa $ 存在与任务相关的最优值,过高或过低均导致性能下降,表明对超参数调优较为敏感。
  • 所提出的VI-MPC框架在不同任务间泛化能力良好,基于MPPI的最优性在Ant等环境中优于原始CEM,表明任务特定的最优性选择具有优势。
  • 与PETS相比,该方法未显著增加计算成本,使其成为现有MBRL流程中实用且可扩展的改进方案。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。