QUICK REVIEW

[论文解读] Parrot: Data-Driven Behavioral Priors for Reinforcement Learning

Avi Singh, Huihan Liu|arXiv (Cornell University)|Nov 19, 2020

Reinforcement Learning in Robotics参考文献 75被引用 27

一句话总结

PARROT 通过从多样化先验任务的成功轨迹中学习从噪声向量到复杂高维动作的可逆映射，引入了一种数据驱动的行为先验，用于强化学习。该先验使智能体能够从图像观测和稀疏奖励中实现快速、样本高效的机器人操作任务学习，在标准强化学习失效的复杂环境中显著优于先前方法。

ABSTRACT

Reinforcement learning provides a general framework for flexible decision making and control, but requires extensive data collection for each new task that an agent needs to learn. In other machine learning fields, such as natural language processing or computer vision, pre-training on large, previously collected datasets to bootstrap learning for new tasks has emerged as a powerful paradigm to reduce data requirements when learning a new task. In this paper, we ask the following question: how can we enable similarly useful pre-training for RL agents? We propose a method for pre-training behavioral priors that can capture complex input-output relationships observed in successful trials from a wide range of previously seen tasks, and we show how this learned prior can be used for rapidly learning new tasks without impeding the RL agent's ability to try out novel behaviors. We demonstrate the effectiveness of our approach in challenging robotic manipulation domains involving image observations and sparse reward functions, where our method outperforms prior works by a substantial margin.

研究动机与目标

通过利用先验经验，解决强化学习（RL）在新任务上所需数据量过高的问题。
开发一种强化学习的预训练框架，其作用类似于自然语言处理和计算机视觉中的预训练模型。
学习一种行为先验，以捕捉来自多样化任务中成功尝试的输入-输出关系。
使强化学习智能体在新环境中能够有效探索，同时保持对新行为的完全控制。
在涉及未见过物体和图像观测的稀疏奖励机器人操作任务中，提升样本效率。

提出的方法

训练一个可逆归一化流，将单位高斯噪声映射到环境动作，以最大化从成功轨迹中观测到的动作的条件对数似然。
使用来自多样化操作任务的近优状态-动作轨迹多任务数据集，无需奖励标签。
将学习到的映射条件化于当前观测，以在新环境中生成上下文相关的动作。
使强化学习智能体能够从单位高斯分布采样，并利用可逆先验生成动作，从而保持对完整动作空间的覆盖。
利用映射的可逆性，确保即使在数据集中很少出现，原始环境动作仍可被访问。
使用离策略强化学习（如 SAC）微调先验，以适应新任务，同时保留先验的探索偏差。

实验结果

研究问题

RQ1从多样化先验任务中学习到的数据驱动行为先验，能否加速新机器人操作任务中的强化学习？
RQ2该先验的可逆结构在稀疏奖励设置下，如何影响探索和策略学习效率？
RQ3该先验在涉及未见过物体的任务中，其泛化能力有多强？
RQ4数据集大小和分布如何影响行为先验的性能？
RQ5当下游任务与训练任务存在显著差异时，特别是所需动作不同时，会发生什么？

主要发现

PARROT 在从图像观测和稀疏奖励中学习新操作任务方面，显著优于先前方法，包括行为克隆、TrajRL 和 HIRL。
该方法在涉及未见过物体的任务中实现了高成功率，而标准强化学习从零开始训练则完全失败。
仅使用 10,000 条轨迹进行训练即可获得良好性能，当轨迹数超过 25,000 条后性能增益逐渐减小。
当先验仅在抓取任务上进行训练时，其在下游抓取任务中泛化良好，但在拾取-放置任务中失败，原因在于训练数据中缺少夹爪张开动作。
消融实验 Prior-explore（使用非可逆先验）表现出学习不稳定和收敛缓慢，凸显了可逆性的重要性。
行为先验使初始探索速度优于随机策略，但其核心优势在于通过表达性强且可逆的表征，实现初始性能之后的持续改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。