[논문 리뷰] Scaling data-driven robotics with reward sketching and batch reinforcement learning
이 논문은 인간의 선호에서 작업 보상을 학습하기 위한 보상 스케칭을 제시하고, 대규모 저장 로봇 경험 데이터세트를 회고적으로 라벨링한 뒤, 그 오프라인 데이터를 이용해 배치 RL 정책을 학습하여 시각 정보를 활용한 다양한 조작 작업을 해결한다.
We present a framework for data-driven robotics that makes use of a large dataset of recorded robot experience and scales to several tasks using learned reward functions. We show how to apply this framework to accomplish three different object manipulation tasks on a real robot platform. Given demonstrations of a task together with task-agnostic recorded experience, we use a special form of human annotation as supervision to learn a reward function, which enables us to deal with real-world tasks where the reward signal cannot be acquired directly. Learned rewards are used in combination with a large dataset of experience from different tasks to learn a robot policy offline using batch RL. We show that using our approach it is possible to train agents to perform a variety of challenging manipulation tasks including stacking rigid objects and handling cloth.
연구 동기 및 목표
- 다양한 작업에서 수집된 대규모 경험 데이터셋을 활용하여 데이터 기반 로봇공학의 확장 가능성을 고취한다.
- 새로운 작업에 대해 인간의 선호를 효율적으로 수집하기 위한 보상 스케칭을 도입한다.
- 학습된 작업 보상으로 과거 데이터를 회고적으로 주석 달아 오프라인 배치 RL을 가능하게 한다.
- 배치 RL을 사용하여 오프라인 데이터만으로 시각운동 정책을 학습한다.
- 다양한 작업에 걸쳐 실제 로봇에서 학습된 정책의 강건성과 일반화를 입증한다.
제안 방법
- 원격 조작, 스크립트 정책, 학습된 에이전트를 포함한 다양한 로봇 경험을 NeverEnding Storage(NES)에 수집한다.
- 작업별 보상 모델을 학습하기 위해 각 시점의 보상 스케치를 사람으로부터 얻는다.
- 새로운 작업에 대한 모든 NES 에피소드를 라벨링하기 위해 에피소드 내 순위 손실을 이용해 신경망 보상 모델을 학습한다.
- 라벨링된 NES 데이터에 대해 배치 강화학습(배포형 D4PG 유사)을 적용하여 픽셀로부터 시각운동 정책을 학습한다.
- 학습된 정책을 실제 로봇에 배치하고 추가 주석을 통해 보상 모델을 반복적으로 개선한다.
- 온라인 상호 작용 삽입 작업을 선택적으로 수행하여 빠른 온라인 정교화를 보여준다.
실험 결과
연구 질문
- RQ1보상 스케칭이 다양한 조작 작업의 작업 보상을 효율적으로 포착할 수 있는가?
- RQ2풍부하게 주석된 다중 작업 데이터로 학습된 오프라인(배치) RL이 실제 로봇으로 얼마나 잘 일반화되는가?
- RQ3NES를 태스크-애그노스틱 및 태스크-특정 데이터와 함께 활용하는 것이 정책의 일반화와 강건성을 개선하는가?
- RQ4이질적 데이터에서 학습된 로봇 공학의 배치 RL에서 분포형 가치 함수의 영향은 무엇인가?
- RQ5산업 작업에 대해 온라인 인간 피드백이 효과적인 정책으로 수렴하는 속도는 어느 정도인가?
주요 결과
| 에이전트 | 일반 | 어려움 | 미확인 |
|---|---|---|---|
| lift_green | 80% | 80% | 50% |
| stack_green_on_red | 60% | 40% | 40% |
- 오프라인 데이터만으로 학습된 정책은 실제 로봇 작업에서 높은 성공률을 달성한다(예: 보통 조건에서 lift_green 80%, stack_green_on_red 60%).
- 보지 않은 물체와 적대적 교란에 대한 강건성이 입증된다(예: unseen 물체에 대한 lift 50%, stack 40% 성공).
- 분포형 가치 함수가 이 설정에서 배치 RL 성능을 크게 향상시킨다.
- random_watcher 데이터(비작업 탐색)의 포함은 성능을 크게 높이며, 특히 더 어려운/보지 않은 시나리오에서 그렇다.
- 보상 스케칭은 대규모 데이터셋의 회고적 라벨링을 가능하게 하여 온라인 로봇 상호 작용 없이도 확장 가능한 학습을 가능하게 한다.
- 빠르고 상호 작용적인 USB 삽입 예에서, 온라인 주석이 비교적 적게 주어졌을 때 약 8시간 만에 80% 이상 성공에 도달한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.