QUICK REVIEW

[논문 리뷰] Scaling data-driven robotics with reward sketching and batch reinforcement learning

Serkan Cabi, Sergio Gómez Colmenarejo|arXiv (Cornell University)|2019. 09. 26.

Reinforcement Learning in Robotics참고 문헌 81인용 수 45

한 줄 요약

이 논문은 인간의 선호에서 작업 보상을 학습하기 위한 보상 스케칭을 제시하고, 대규모 저장 로봇 경험 데이터세트를 회고적으로 라벨링한 뒤, 그 오프라인 데이터를 이용해 배치 RL 정책을 학습하여 시각 정보를 활용한 다양한 조작 작업을 해결한다.

ABSTRACT

We present a framework for data-driven robotics that makes use of a large dataset of recorded robot experience and scales to several tasks using learned reward functions. We show how to apply this framework to accomplish three different object manipulation tasks on a real robot platform. Given demonstrations of a task together with task-agnostic recorded experience, we use a special form of human annotation as supervision to learn a reward function, which enables us to deal with real-world tasks where the reward signal cannot be acquired directly. Learned rewards are used in combination with a large dataset of experience from different tasks to learn a robot policy offline using batch RL. We show that using our approach it is possible to train agents to perform a variety of challenging manipulation tasks including stacking rigid objects and handling cloth.

연구 동기 및 목표

다양한 작업에서 수집된 대규모 경험 데이터셋을 활용하여 데이터 기반 로봇공학의 확장 가능성을 고취한다.
새로운 작업에 대해 인간의 선호를 효율적으로 수집하기 위한 보상 스케칭을 도입한다.
학습된 작업 보상으로 과거 데이터를 회고적으로 주석 달아 오프라인 배치 RL을 가능하게 한다.
배치 RL을 사용하여 오프라인 데이터만으로 시각운동 정책을 학습한다.
다양한 작업에 걸쳐 실제 로봇에서 학습된 정책의 강건성과 일반화를 입증한다.

제안 방법

원격 조작, 스크립트 정책, 학습된 에이전트를 포함한 다양한 로봇 경험을 NeverEnding Storage(NES)에 수집한다.
작업별 보상 모델을 학습하기 위해 각 시점의 보상 스케치를 사람으로부터 얻는다.
새로운 작업에 대한 모든 NES 에피소드를 라벨링하기 위해 에피소드 내 순위 손실을 이용해 신경망 보상 모델을 학습한다.
라벨링된 NES 데이터에 대해 배치 강화학습(배포형 D4PG 유사)을 적용하여 픽셀로부터 시각운동 정책을 학습한다.
학습된 정책을 실제 로봇에 배치하고 추가 주석을 통해 보상 모델을 반복적으로 개선한다.
온라인 상호 작용 삽입 작업을 선택적으로 수행하여 빠른 온라인 정교화를 보여준다.

실험 결과

연구 질문

RQ1보상 스케칭이 다양한 조작 작업의 작업 보상을 효율적으로 포착할 수 있는가?
RQ2풍부하게 주석된 다중 작업 데이터로 학습된 오프라인(배치) RL이 실제 로봇으로 얼마나 잘 일반화되는가?
RQ3NES를 태스크-애그노스틱 및 태스크-특정 데이터와 함께 활용하는 것이 정책의 일반화와 강건성을 개선하는가?
RQ4이질적 데이터에서 학습된 로봇 공학의 배치 RL에서 분포형 가치 함수의 영향은 무엇인가?
RQ5산업 작업에 대해 온라인 인간 피드백이 효과적인 정책으로 수렴하는 속도는 어느 정도인가?

주요 결과

에이전트	일반	어려움	미확인
lift_green	80%	80%	50%
stack_green_on_red	60%	40%	40%

오프라인 데이터만으로 학습된 정책은 실제 로봇 작업에서 높은 성공률을 달성한다(예: 보통 조건에서 lift_green 80%, stack_green_on_red 60%).
보지 않은 물체와 적대적 교란에 대한 강건성이 입증된다(예: unseen 물체에 대한 lift 50%, stack 40% 성공).
분포형 가치 함수가 이 설정에서 배치 RL 성능을 크게 향상시킨다.
random_watcher 데이터(비작업 탐색)의 포함은 성능을 크게 높이며, 특히 더 어려운/보지 않은 시나리오에서 그렇다.
보상 스케칭은 대규모 데이터셋의 회고적 라벨링을 가능하게 하여 온라인 로봇 상호 작용 없이도 확장 가능한 학습을 가능하게 한다.
빠르고 상호 작용적인 USB 삽입 예에서, 온라인 주석이 비교적 적게 주어졌을 때 약 8시간 만에 80% 이상 성공에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.