QUICK REVIEW

[논문 리뷰] A Framework for Data-Driven Robotics

Serkan Cabi, Sergio Gómez Colmenarejo|arXiv (Cornell University)|2019. 09. 26.

Reinforcement Learning in Robotics인용 수 11

한 줄 요약

이 논문은 대규모로 기록된 로봇 경험과 인간이 주석을付けた 시연 데이터를 활용하여 작업별 보상 함수를 학습하는 데이터 기반 로봇 프레임워크를 제안한다. 이를 통해 다양한 조작 작업을 위한 오프라인 배치 강화 학습을 가능하게 한다. 이 방법은 직접적인 보상 신호 없이도 시연 데이터와 보상 학습만으로도 복잡한 작업, 예를 들어 고체 물체의 쌓기 및 천 다루기와 같은 실제 세계의 정책을 성공적으로 학습시킨다.

ABSTRACT

We present a framework for data-driven robotics that makes use of a large dataset of recorded robot experience and scales to several tasks using learned reward functions. We show how to apply this framework to accomplish three different object manipulation tasks on a real robot platform. Given demonstrations of a task together with task-agnostic recorded experience, we use a special form of human annotation as supervision to learn a reward function, which enables us to deal with real-world tasks where the reward signal cannot be acquired directly. Learned rewards are used in combination with a large dataset of experience from different tasks to learn a robot policy offline using batch RL. We show that using our approach it is possible to train agents to perform a variety of challenging manipulation tasks including stacking rigid objects and handling cloth.

연구 동기 및 목표

실제 로봇 조작 작업에서 직접 보상 신호를 확보하는 데 도전하는 데 목적을 두며.
다양한 경험을 담은 단일 통합 데이터셋을 통해 여러 조작 작업 간에 제로샷 전이를 가능하게 하는 데 목적을 두며.
직접 보상 레이블링이 아닌 인간이 주석을付けた 시연 데이터에서 보상 함수를 학습하는 방법을 개발하는 데 목적을 두며.
스택킹과 같이 복잡한 실제 작업, 예를 들어 고체 물체의 쌓기 및 유연한 재료인 천 다루기와 같은 작업에 데이터 기반 학습을 확장하는 데 목적을 두며.

제안 방법

다양한 작업에서 기록된 로봇 경험의 대규모 데이터셋을 사용하며, 이는 작업별 시연 데이터와 작업에 관계없이 일반적인 궤적을 포함한다.
인간 주석자들이 작업에 관련된 속성으로 시연 데이터를 레이블링하며, 이를 보상 함수 학습의 지도 신호로 사용한다.
이러한 인간 주석 신호를 기반으로 학습된 보상 함수를 통해 직접 보상 신호 없이도 보상 구조를 추론할 수 있도록 한다.
학습된 보상 함수를 다양한 경험의 대규모 데이터셋과 결합하여 오프라인 배치 강화 학습을 통해 로봇 정책을 학습한다.
공유 표현과 보상 일반화를 활용하여 작업 간 제로샷 정책 전이를 가능하게 한다.
프레임워크는 스태킹과 천 다루기 포함한 세 가지의 다른 조작 작업에 대해 실제 로봇 플랫폼에서 평가된다.

실험 결과

연구 질문

RQ1실제 로봇 공학에서 직접 보상 신호 없이 인간이 주석을付け한 시연 데이터에서 보상 함수를 효과적으로 학습할 수 있는가?
RQ2다양한 로봇 경험의 단일 통합 데이터셋이 여러 조작 작업 간 정책 학습을 얼마나 잘 지원하는가?
RQ3학습된 보상 함수가 복잡한 조작 작업에서 제로샷 정책 전이를 가능하게 하기 위해 어느 정도 일반화되는가?
RQ4데이터 기반 프레임워크를 활용한 배치 강화 학습이 스태킹 및 천 조작과 같은 도전적인 실제 작업에서 안정적인 성능을 달성할 수 있는가?

주요 결과

프레임워크는 기록된 경험과 인간이 주석을付け한 시연 데이터만을 사용하여 세 가지의 다른 조작 작업—고체 물체의 쌓기 및 천 다루기—에 대한 로봇 정책을 성공적으로 학습시켰다.
직접 보상 신호가 없을 경우에도 학습된 보상 함수가 효과적인 정책 학습을 가능하게 하여 간접 지도 학습의 타당성을 입증했다.
이 방법은 작업 간 제로샷 정책 전이를 가능하게 하여 공유 표현과 보상 함수의 강력한 일반화 능력을 시사한다.
실제 하드웨어에서 높은 성능을 달성하여 인간 주석 지도 학습을 통한 데이터 기반 학습이 복잡한 조작 작업에 효과적임을 보여주었다.
단일 데이터셋을 사용하여 여러 작업으로 확장 가능하여 작업별 데이터 수집 및 보상 엔지니어링의 필요성을 줄였다.
결과적으로 오프라인 배치 RL과 학습된 보상 함수가 온라인 상호작용 없이 도전적인 실제 조작 작업을 해결할 수 있음을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.