QUICK REVIEW

[论文解读] Maximum a Posteriori Policy Optimisation

Abbas Abdolmaleki, Jost Tobias Springenberg|arXiv (Cornell University)|Jun 14, 2018

Reinforcement Learning in Robotics参考文献 28被引用 167

一句话总结

MPO 引入一种基于相对熵目标的坐标提升的离策略强化学习算法，通过一个类似 EM 的 E 步（重新加权样本）和 M 步（带有监督的 MAP 更新）实现数据高效且鲁棒的策略优化。

ABSTRACT

We introduce a new algorithm for reinforcement learning called Maximum aposteriori Policy Optimisation (MPO) based on coordinate ascent on a relative entropy objective. We show that several existing methods can directly be related to our derivation. We develop two off-policy algorithms and demonstrate that they are competitive with the state-of-the-art in deep reinforcement learning. In particular, for continuous control, our method outperforms existing methods with respect to sample efficiency, premature convergence and robustness to hyperparameter settings while achieving similar or better final performance.

研究动机与目标

动机与解决深度强化学习在连续控制中的样本低效和不稳定性。
开发一种离策略算法，将数据效率与在策略方法的稳定性相结合。
利用类似 EM 的框架，将轨迹重新加权（E 步）与策略更新（M 步）分离。
将 MPO 与现有的 RL 方法相关联，并展示对超参数的鲁棒性。

提出的方法

将强化学习表述为以策略最优性下界（ELBO）为目标的变分推断。
使用类似 EM 的坐标上升，交替进行 E 步（在固定策略条件下优化 q(a|s)）和 M 步（在 q 加权的监督下更新策略参数的 MAP）。
将 E 步实现为参数化或非参数化的变分分布 q(a|s)；在非参数化时推导 q 的闭式解：q(a|s) ∝ π(a|s,θ) exp(Qθ(s,a)/η)。
在 E 步引入硬 KL 约束以稳定优化，或等价地使用基于温度的正则化参数 α。
在 M 步中，执行对策略参数的带权最大后验更新，并相对于前一策略加入 KL 约束以提高泛化。
使用 Retrace 进行稳定的离策略 Q 函数估计以及为 Q 网络引导的目标。

实验结果

研究问题

RQ1MPO 是否在连续控制中实现高数据效率，同时保持对超参数的鲁棒性？
RQ2离策略的 EM 风格优化框架能否在样本效率和稳定性方面达到甚至超过最先进的方法（TRPO/PPO、DDPG）？
RQ3MPO 在高维任务（如 56 自由度的人形机器人）以及离策略学习条件下的表现如何？
RQ4非参数与参数化变分分布 q(a|s) 对性能和稳定性的影响如何？

主要发现

MPO 在广泛的连续控制任务中实现了强数据效率和鲁棒学习。
在高维控制问题上，MPO 在样本效率、过早收敛和对超参数的鲁棒性方面优于最先进的方法。
一种离策略的 EM 风格方法在策略更新时不需要 Q 函数梯度即可提供稳定性。
在 E 步中使用硬 KL 约束，在 M 步中使用 KL 约束可提高稳定性和泛化。
非参数化的 q(a|s) 优化给出一个闭式解，利用样本和 Q 值对动作进行重新加权。
实验证明 MPO 在相对适度的数据量下就能解决所有任务（通常不到 1000 条轨迹）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。