[논문 리뷰] End-to-End Robotic Reinforcement Learning without Reward Engineering
본 논문은 RAQ와 VICE-RAQ를 제시합니다. 이 방법들은 활성 이진 질의와 오프폴리시 분류기 기반 보상을 이용하여 수동으로 설계된 보상 없이 픽셀 관찰로부터 로봇 기술을 학습하는 방법입니다.
The combination of deep neural network models and reinforcement learning algorithms can make it possible to learn policies for robotic behaviors that directly read in raw sensory inputs, such as camera images, effectively subsuming both estimation and control into one model. However, real-world applications of reinforcement learning must specify the goal of the task by means of a manually programmed reward function, which in practice requires either designing the very same perception pipeline that end-to-end reinforcement learning promises to avoid, or else instrumenting the environment with additional sensors to determine if the task has been performed successfully. In this paper, we propose an approach for removing the need for manual engineering of reward specifications by enabling a robot to learn from a modest number of examples of successful outcomes, followed by actively solicited queries, where the robot shows the user a state and asks for a label to determine whether that state represents successful completion of the task. While requesting labels for every single state would amount to asking the user to manually provide the reward signal, our method requires labels for only a tiny fraction of the states seen during training, making it an efficient and practical approach for learning skills without manually engineered rewards. We evaluate our method on real-world robotic manipulation tasks where the observations consist of images viewed by the robot's camera. In our experiments, our method effectively learns to arrange objects, place books, and drape cloth, directly from images and without any manually specified reward functions, and with only 1-4 hours of interaction with the real world.
연구 동기 및 목표
- 손으로 설계된 보상 없이 픽셀 관찰로부터 실제 로봇에서 엔드 투 엔드 RL을 가능하게 한다.
- 적은 수의 양의 결과 예시와 이진 활성 질의를 사용하여 보상을 정의한다.
- 현실 세계 로봇공학에 실용적인 수준으로 데이터 및 주석 부담을 줄인다.
- 효율적인 학습을 가능하게 하면서 보상 모델에서의 분류기 남용을 완화한다.
제안 방법
- 고차원 관찰에 기초한 목표 분류기를 학습하여 로그 확률 보상을 제공한다.
- 높은 확률 상태를 레이블링하기 위해 활성 질의를 사용하고 소수의 이진 성공 라벨을 수집한다.
- 최대 엔트로피 RL 프레임워크에서 분류기 기반 보상을 활용한 소프트 액터-크리틱(SAC)을 채택한다.
- 효율성을 위해 재생 버퍼 데이터를 활용하도록 VICE를 오프폴리시 학습으로 확장한다.
- 이미지 기반 조작 작업을 위한 VICE-RAQ를 형성하기 위해 활성 질의를 VICE와 통합한다.
실험 결과
연구 질문
- RQ1수동으로 설계된 보상 없이 이미지에서 로봇 기술을 엔드투엔드로 학습할 수 있는가?
- RQ2양의 예시 소수와 이진 활성 질의가 어떻게 효과적인 보상을 학습하는 데 충분한가?
- RQ3활성 질의가 포함된 오프폴리시 VICE가 데이터 효율성과 현실 세계 적용성을 향상시키는가?
- RQ4시뮬레이션과 실제 세계에서 이미지 기반 조작 과제에 대해 RAQ와 VICE-RAQ의 성능은 어떤가?
주요 결과
- RAQ와 VICE-RAQ는 수동으로 설계된 보상 없이도 픽셀 관찰로부터 효율적인 학습을 달성한다.
- 시뮬레이션에서 VICE-RAQ는 Visual Pusher, Visual Door Opening, Visual Picker 등 작업에서 다른 방법들보다 우수하다.
- 현실 세계 실험에서 천을 드리워 놓기, 책 배치, 머그컵을 코스터 위에 두는 작업을 1-4시간의 상호작용으로 학습하는 것을 시연한다.
- 활성 이진 질의(한 실행당 25–75개)가 전체 주석에 비해 필요한 라벨링을 크게 줄인다.
- 오프폴리시 VICE-RAQ는 재생 버퍼의 데이터를 효과적으로 활용하는 동시에 분류기 남용을 완화한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.