QUICK REVIEW

[论文解读] Combining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learning

Yevgen Chebotar, Karol Hausman|arXiv (Cornell University)|Mar 8, 2017

Reinforcement Learning in Robotics参考文献 27被引用 86

一句话总结

PILQR 将基于模型的 LQR-FLM 更新与基于模型无关的 PI 2 更新整合到轨迹中心策略中，实现数据高效的学习，并通过 GPS 在仿真和真实机器人中有效训练神经网络。

ABSTRACT

Reinforcement learning (RL) algorithms for real-world robotic applications need a data-efficient learning process and the ability to handle complex, unknown dynamical systems. These requirements are handled well by model-based and model-free RL approaches, respectively. In this work, we aim to combine the advantages of these two types of methods in a principled manner. By focusing on time-varying linear-Gaussian policies, we enable a model-based algorithm based on the linear quadratic regulator (LQR) that can be integrated into the model-free framework of path integral policy improvement (PI2). We can further combine our method with guided policy search (GPS) to train arbitrary parameterized policies such as deep neural networks. Our simulation and real-world experiments demonstrate that this method can solve challenging manipulation tasks with comparable or better performance than model-free methods while maintaining the sample efficiency of model-based methods. A video presenting our results is available at https://sites.google.com/site/icml17pilqr

研究动机与目标

为具有未知动态的实际机器人激发数据高效的强化学习。
利用时变线性高斯策略，以实现快速的基于模型的更新。
在单一轨迹中心框架内将基于模型的更新与基于模型无关的修正结合起来。
将 PILQR 集成到引导策略搜索中，以训练通用的神经网络策略。
在仿真任务和真实世界机器人操作任务中证明其有效性。

提出的方法

使用时变线性高斯（TVLG）策略 p(u_t|x_t)，其动态 p(x_{t+1}|x_t,u_t) 被建模为高斯分布。
将带拟合线性模型的 LQR（LQR-FLM）扩展为使用局部二次代价近似进行 KL 约束的二阶更新。
采用路径积分策略改进（PI 2）作为基于模型无关、受 KL 约束的更新，由代价到达 S 与对轨迹的 soft-max 重加权驱动。
引入两阶段 PI 2 更新：先用基于模型的代价近似更新，然后用 PI 2 对残差代价进行更新。
将 PI 2 更新分解为基于模型的近似 hat{S} 与残差 tilde{S}，按式(5)–(6) 依次进行更新。
结合两阶段的 PILQR 算法（算法1）：生成轨迹，拟合 TVLG 动力学，计算 hat{c} 和 tilde{c}，调整 KL 步长 epsilon_t，计算 eta_t，对 hat{c} 执行 LQR-FLM，然后对 tilde{c} 执行 PI 2。

实验结果

研究问题

RQ1在轨迹中心的任务上，PILQR 是否在最终性能和样本效率上优于基于模型或基于模型无关的基线？
RQ2PILQR 能否通过 GPS 训练高维神经网络策略，且样本效率可与基于模型的方法相当？
RQ3PILQR 是否能够在仿真和真实机器人平台上解决具有不连续动态的复杂操作任务？
RQ4将 LQR-FLM 更新与 PI 2 修正相结合如何影响学习的稳定性和收敛性？

主要发现

在模拟中，PILQR 在具有挑战性的夹持器推动和开门任务上超越了 LQR-FLM 和 PI 2，所有条件都能解决，每个条件约需 400 集合。
结合 PILQR 的 MDGPS 在某些任务上训练出的神经网络策略达到与深度强化学习基线相当的表现，同时所用样本量少几个数量级。
在真实机器人曲棍球和插头插入等任务中，PILQR 在不到一小时的经验内从零开始学习出鲁棒策略，无需演示。
PILQR 使神经网络策略在曲棍球任务中能在多个目标位置泛化，在不同目标下达到 90% 的成功率。
PILQR 在 PI 2 单独难以取得成功以及 LQR-FLM 单独在具有不连续动态的任务中失败的情形下展示出最有利的成功率，凸显了混合方法的优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。