[논문 리뷰] Reinforcement and Imitation Learning for Diverse Visuomotor Skills
모델 프리(deep RL) 방법으로 시연을 시합과 강화 학습과 결합하여 픽셀로부터 다양한 로봇 조작 작업에 대해 엔드투엔드 비주얼 모터 정책을 학습하고, 시뮬레이션에서 실제로의 전이(sim2real) 가능성을 보인다.
We propose a model-free deep reinforcement learning method that leverages a small amount of demonstration data to assist a reinforcement learning agent. We apply this approach to robotic manipulation tasks and train end-to-end visuomotor policies that map directly from RGB camera inputs to joint velocities. We demonstrate that our approach can solve a wide variety of visuomotor tasks, for which engineering a scripted controller would be laborious. In experiments, our reinforcement and imitation agent achieves significantly better performances than agents trained with reinforcement learning or imitation learning alone. We also illustrate that these policies, trained with large visual and dynamics variations, can achieve preliminary successes in zero-shot sim2real transfer. A brief visual description of this work can be viewed in https://youtu.be/EDl8SQUNjj0
연구 동기 및 목표
- 시연을 활용하여 연속 비주얼-모터 제어에서 탐색 난이도를 줄인다.
- 모방 학습과 강화 학습을 통합된 훈련 프레임워크로 통합한다.
- 학습을 안정화하고 가속하기 위해 특권 시뮬레이션 정보를 활용한다.
- 일반화와 sim2real 전이 개선을 위해 훈련 조건을 다양화한다.
- 도메인 무작위화를 통한 로봇에 대한 제로샷 전이 가능성을 시연한다.
제안 방법
- Generative Adversarial Imitation Learning (GAIL)에서의 모방 보상과 작업 보상을 결합한 하이브리드 보상을 사용한다.
- RGB 관찰치와 고유수용 특징을 9-DoF 관절 속도 명령으로 매핑하는 엔드투엔드 비주얼 모터 정책을 학습한다.
- 다음과 같이 특권 시뮬레이션 상태를 활용한다: (i) 시연 상태에서의 커리큘럼, (ii) 물리적 상태로부터의 분리된 가치 학습, (iii) 마스킹이 있는 객체 중심 GAIL 판별기, (iv) 보조 상태 예측 작업.
- 픽셀에 대해 CNN으로 정책을 표현하고, 고유감각에 대해서는 MLP, 시간적 통합을 위한 LSTM 코어를 사용한다.
- MuJoCo에서 다양한 절차적으로 생성된 물체와 무작위 역학으로 훈련하고; sim2real 도메인 무작위화를 통해 실제 로봇으로 전이한다.
- 판별기가 시연자 동작이 아니라 상태 궤적을 사용하므로 서로 다른 로봇 바디로도 시연을 수집하도록 허용한다.
실험 결과
연구 질문
- RQ1순수 RL이나 순수 IL이 실패하는 픽셀 입력에서의 장기 시간 범위 비주얼 모터 태스크를 하이브리드 RL과 IL 프레임워크가 해결할 수 있는가?
- RQ2특권 시뮬레이션 데이터와 커리큘럼 전략을 활용하면 학습을 안정시키고 수렴 속도를 높일 수 있는가?
- RQ3객체 중심 판별, 분리된 상태 가치 학습, 보조 작업이 정책 성능에 미치는 영향은 무엇인가?
- RQ4시뮬레이션에서 학습된 정책이 미세 조정 없이 실제 하드웨어로 얼마나 전이될 수 있는가(제로샷 sim2real)?
주요 결과
- 전체 하이브리드 모델은 여섯 가지 조작 태스크를 모두 해결하고 순수 RL이나 순수 GAIL 베이스라인보다 성능이 우수하다.
- 시연 주도 커리큘럼 시작 상태가 무작위 시작으로부터 학습하는 것에 비해 학습 속도를 크게 높인다.
- 저차원 물리 상태에서 가치 함수를 학습하는 것이 학습을 안정화시킨다.
- 객체 중심 판별기가 작업 관련 특징에 집중함으로써 GAIL 신호를 개선한다.
- 제로샷 전이는 실제 Kinova Jaco 팔에 대해 고정 구성에서 리프팅 64%, 스태킹 35%의 성공을 달성했고, 테스트된 궤적에서 리치만 항상 성공했다.
- 도메인 무작위화를 통한 하이브리드 RL/IL은 큰 시각적 및 동적 변화에 대한 강인성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.