QUICK REVIEW

[论文解读] Scaling data-driven robotics with reward sketching and batch reinforcement learning

Serkan Cabi, Sergio Gómez Colmenarejo|arXiv (Cornell University)|Sep 26, 2019

Reinforcement Learning in Robotics参考文献 81被引用 45

一句话总结

该论文提出使用奖励草图来从人类偏好中学习任务奖励，回顾性标注大量存储的机器人经验数据集，然后基于离线数据训练批量强化学习策略，以实现多样化的视觉操控任务。

ABSTRACT

We present a framework for data-driven robotics that makes use of a large dataset of recorded robot experience and scales to several tasks using learned reward functions. We show how to apply this framework to accomplish three different object manipulation tasks on a real robot platform. Given demonstrations of a task together with task-agnostic recorded experience, we use a special form of human annotation as supervision to learn a reward function, which enables us to deal with real-world tasks where the reward signal cannot be acquired directly. Learned rewards are used in combination with a large dataset of experience from different tasks to learn a robot policy offline using batch RL. We show that using our approach it is possible to train agents to perform a variety of challenging manipulation tasks including stacking rigid objects and handling cloth.

研究动机与目标

通过利用跨任务收集的大型经验数据来推动数据驱动的机器人学的可扩展性。
引入奖励草图以高效收集新任务的人类偏好。
对历史数据进行回顾性标注学习到的任务奖励，以实现离线批量强化学习。
完全使用离线数据通过批量强化学习训练视觉-运动策略。
在真实机器人上展示学习策略的鲁棒性和泛化能力，覆盖多样任务。

提出的方法

收集包括远程操作、脚本化策略和训练代理在内的多样化机器人经验，存入 NeverEnding Storage (NES)。
从人类处获取每个时间步的奖励草图，以学习特定任务的奖励模型。
使用类内部评估排名损失训练神经奖励模型，为新任务标注所有NES剧集。
在带标注的NES数据上应用批量强化学习（分布式的类似D4PG），从像素学习 visuomotor 策略。
在真实机器人上部署训练好的策略，并通过额外标注持续改进奖励模型。
可选地执行在线交互式插入任务，以展示快速在线改进。

实验结果

研究问题

RQ1奖励草图能否有效捕捉多样化操控任务的任务奖励？
RQ2在丰富标注的多任务数据上进行离线（批量）RL，迁移到真实机器人表现如何？
RQ3使用具有任务无关和任务特定数据的NES是否能提升策略的泛化与鲁棒性？
RQ4在从异构数据训练的机器人批量RL中，分布式价值函数的影响是什么？
RQ5在线人类反馈多快能收敛到工业任务的有效策略？

主要发现

完全依赖离线数据学习的策略在真实机器人任务中表现出高成功率（例如，正常条件下提升任务的 80% / 堆叠任务的 60% 的成功率）。
对未知对象和对抗扰动的鲁棒性得到证明（例如，在提升/堆叠任务中，对未知对象的成功率为 50%/40%）。
分布式价值函数显著提升了在该 setting 的批量RL性能。
引入 random_watcher 数据（任务外探索）显著提升性能，尤其在更难/未见场景中。
奖励草图实现对大型数据集的回顾性标注，使在没有在线机器人交互的情况下实现可扩展学习成为可能。
在一个快速、交互式的 USB 插入示例中，策略在大约 8 小时内通过有限的在线标注达到超过 80% 的成功率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。