QUICK REVIEW

[论文解读] Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

Kurtland Chua, Roberto Calandra|arXiv (Cornell University)|May 30, 2018

Reinforcement Learning in Robotics参考文献 49被引用 185

一句话总结

PESTS 使用具不确定性感知的概率神经网络动力学与轨迹采样来实现基于模型的强化学习，使其在标准基准上以远少于样本数量的情况下达到与模型无关方法的渐近性能相匹配。

ABSTRACT

Model-based reinforcement learning (RL) algorithms can attain excellent sample efficiency, but often lag behind the best model-free algorithms in terms of asymptotic performance. This is especially true with high-capacity parametric function approximators, such as deep networks. In this paper, we study how to bridge this gap, by employing uncertainty-aware dynamics models. We propose a new algorithm called probabilistic ensembles with trajectory sampling (PETS) that combines uncertainty-aware deep network dynamics models with sampling-based uncertainty propagation. Our comparison to state-of-the-art model-based and model-free deep RL algorithms shows that our approach matches the asymptotic performance of model-free algorithms on several challenging benchmark tasks, while requiring significantly fewer samples (e.g., 8 and 125 times fewer samples than Soft Actor Critic and Proximal Policy Optimization respectively on the half-cheetah task).

研究动机与目标

通过将不确定性整合到深度基于模型的动力学中，促进样本高效的强化学习。
开发一种结合神经网络与集合的具不确定性感知的动力学模型，以捕捉本源不确定性和知识不确定性。
在模型预测控制框架中提出轨迹采样，以在规划期间传播不确定性。
证明该方法在显著少样本的情况下，其渐近性能可与模型无关方法相媲美。

提出的方法

提出带轨迹采样的概率性集合（PETS），使用一组自举的概率神经网络来建模动力学。
分离并捕捉本源不确定性（通过概率网络）与知识不确定性（通过集合）。
使用具有多个粒子和自举索引的轨迹采样，在时间上传播不确定性。
应用带交叉熵方法（CEM）的模型预测控制，在每一步基于对预测轨迹的期望回报来优化动作序列。
在数据上训练模型并通过基于试验的数据收集进行更新，评估对比基线包括模型无关和基于高斯过程的方法。

实验结果

研究问题

RQ1具不确定性感知的深度神经网络动力学模型是否能缩小基于模型与基于模型无关的RL之间的性能差距，同时降低样本复杂度？
RQ2对本源不确定性与知识不确定性建模对规划与学习效率有何影响？
RQ3不同不确定性传播方法如何影响规划质量和数据效率？
RQ4概率网络集合在高维控制任务中是否实用且可扩展？
RQ5PETS 风格的方法是否在标准基准上以显著更少的样本实现与现有最先进的模型无关方法相当的渐近性能？

主要发现

PETS 在基准任务上实现了与最先进的模型无关方法相同的渐近性能，同时使用的样本更少。
在半猎豹任务中比 Soft Actor Critic 少用八分之一样本。
PETS 在若干任务中优于先前的基于模型的方法和一些基于模型无关的基线，证明在建模和规划中引入不确定性的重要性。
概率性集合与轨迹采样的结合对本源不确定性与知识不确定性均提供了鲁棒处理，提升数据效率。
矩匹配在低维任务中具备竞争力，但在像半猎豹这样的高维任务中可靠性较低。
模型选择（PE 集合）对性能的影响大于所使用的具体不确定性传播技术。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。