Skip to main content
QUICK REVIEW

[论文解读] A Framework for Data-Driven Robotics

Serkan Cabi, Sergio Gómez Colmenarejo|arXiv (Cornell University)|Sep 26, 2019
Reinforcement Learning in Robotics被引用 11
一句话总结

本文提出了一种数据驱动的机器人框架,利用大规模记录的机器人经验以及人工标注的示范,学习特定任务的奖励函数,从而实现多样化的操作任务的离线批量强化学习。该方法仅通过示范数据和奖励学习,无需直接的奖励信号,成功训练了真实世界中执行复杂任务(如堆叠刚性物体和处理布料)的策略。

ABSTRACT

We present a framework for data-driven robotics that makes use of a large dataset of recorded robot experience and scales to several tasks using learned reward functions. We show how to apply this framework to accomplish three different object manipulation tasks on a real robot platform. Given demonstrations of a task together with task-agnostic recorded experience, we use a special form of human annotation as supervision to learn a reward function, which enables us to deal with real-world tasks where the reward signal cannot be acquired directly. Learned rewards are used in combination with a large dataset of experience from different tasks to learn a robot policy offline using batch RL. We show that using our approach it is possible to train agents to perform a variety of challenging manipulation tasks including stacking rigid objects and handling cloth.

研究动机与目标

  • 解决在真实世界机器人操作任务中获取直接奖励信号的挑战。
  • 通过单一、统一的多样化经验数据集,实现在多个操作任务之间的零样本策略迁移。
  • 开发一种从人工标注的示范中学习奖励函数的方法,而非直接进行奖励标注。
  • 将数据驱动学习扩展到复杂的真实世界任务,如堆叠刚性物体和操作柔性材料(如布料)。

提出的方法

  • 该框架使用来自多个任务的大规模记录机器人经验数据集,包括任务特定的示范和任务无关的轨迹。
  • 人工标注者为示范标注任务相关的属性,这些属性用于监督奖励函数的学习。
  • 利用这些人工标注的信号训练学习到的奖励函数,使系统能够在无直接奖励信号的情况下推断出奖励结构。
  • 将学习到的奖励函数与大规模多样化经验数据集结合,使用离线批量强化学习训练机器人策略。
  • 通过共享表征和奖励泛化,实现在任务间的零样本策略迁移。
  • 该框架在真实机器人平台上对三种不同的操作任务进行了评估,包括堆叠和布料处理。

实验结果

研究问题

  • RQ1在真实世界机器人任务中,能否在无直接奖励信号的情况下,有效从人工标注的示范中学习到奖励函数?
  • RQ2单一、统一的多样化机器人经验数据集在多任务策略学习中的支持能力如何?
  • RQ3学习到的奖励函数在复杂操作任务中,能在多大程度上实现零样本策略迁移?
  • RQ4使用数据驱动框架的批量强化学习能否在具有挑战性的现实任务(如堆叠和布料操作)中实现稳健性能?

主要发现

  • 该框架仅使用记录的经验和人工标注的示范,成功训练了机器人策略,完成三种不同的操作任务——堆叠刚性物体和处理布料。
  • 学习到的奖励函数即使在缺乏直接奖励信号的情况下,也能实现有效的策略学习,证明了间接监督的可行性。
  • 该方法实现了任务间的零样本策略迁移,表明共享表征和奖励函数具有强大的泛化能力。
  • 该方法在真实世界硬件上实现了稳健性能,表明结合人工标注监督的数据驱动学习在复杂操作任务中是有效的。
  • 该框架使用单一数据集即可扩展到多个任务,减少了对任务特定数据收集和奖励工程的需求。
  • 结果表明,使用学习到的奖励的离线批量强化学习能够解决具有挑战性的现实世界操作任务,而无需在线交互。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。