[논문 리뷰] MimicPlay: Long-Horizon Imitation Learning by Watching Human Play
MimicPlay는 저렴한 인간 플레이 데이터를 바탕으로 3D 인식 잠재 계획자를 학습하여 소수의 원격조작 시연으로 학습된 저수준 시각운동 컨트롤러를 안내하고, 이를 통해 14개의 실제 세계 작업에 걸친 효율적이고 견고한 장기 지향 조작을 가능하게 한다.
Imitation learning from human demonstrations is a promising paradigm for teaching robots manipulation skills in the real world. However, learning complex long-horizon tasks often requires an unattainable amount of demonstrations. To reduce the high data requirement, we resort to human play data - video sequences of people freely interacting with the environment using their hands. Even with different morphologies, we hypothesize that human play data contain rich and salient information about physical interactions that can readily facilitate robot policy learning. Motivated by this, we introduce a hierarchical learning framework named MimicPlay that learns latent plans from human play data to guide low-level visuomotor control trained on a small number of teleoperated demonstrations. With systematic evaluations of 14 long-horizon manipulation tasks in the real world, we show that MimicPlay outperforms state-of-the-art imitation learning methods in task success rate, generalization ability, and robustness to disturbances. Code and videos are available at https://mimic-play.github.io
연구 동기 및 목표
- 저렴한 인간 플레이 데이터를 활용하여 고수준 계획을 학습함으로써 장기 지향 모방 학습의 데이터 요구를 줄인다.
- 잠재 계획 공간을 통해 계획과 제어를 분리하여 저수준 시각-운동 정책을 안내한다.
- 3D 인식 잠재 계획자와 소수의 로봇 시연으로 인간과 로봇의 구현을 연결한다.
- 다양한 실제 세계 작업에서 샘플 효율성, 일반화 및 견고성의 향상을 입증한다.
제안 방법
- 목표 이미지가 주어졌을 때 향후 3D 인간 손 궤적을 예측하는 목표 조건 잠재 계획자를 인간 플레이 데이터로 학습한다.
- 다중 모드를 포착하기 위해 MLP 기반 가우시안 혼합 모델로 궤적 분포를 모델링한다.
- 시각 도메인 격차를 줄이기 위해 인간과 로봇 시각 인코딩 간의 KL 발산을 최소화한다.
- 적은 양의 원격조작 데이터를 사용하여 잠재 계획과 센서 신호를 행동으로 매핑하는 계획 지향 다중 작업 저수준 컨트롤러(트랜스포머 기반)를 학습한다.
- 로봇 모션을 한 번에 촬영한 비디오(인간 또는 로봇)로 프롬트하여 저수준 컨트롤러를 안내하는 잠재 계획을 생성한다.
- 두 단계 학습을 사용한다: (1) 인간 플레이 데이터로부터의 잠재 계획자; (2) 잠재 계획에 조건화된 로봇 시연으로 학습된 저수준 컨트롤러.
실험 결과
연구 질문
- RQ1저렴한 인간 플레이 데이터로 장기 지향 로봇 조작을 안내하는 강건하고 다모드 잠재 계획 공간을 학습할 수 있는가?
- RQ2장기 지향 작업에서 계획과 제어를 분리하는 것이 엔드투엔드 방법보다 샘플 효율성과 일반화를 향상시키는가?
- RQ3적은 양의 원격조작 데이터가 잠재 계획과 결합될 때 여러 작업과 보이지 않는 하위 목표 구성에 대해 어떻게 작동하는가?
- RQ4인간 비디오를 프롬프트로 사용하는 것이 잠재 계획자를 통한 로봇 조작의 효과적인 목표가 될 수 있는가?
주요 결과
| 방법 | 작업-1 | 작업-2 | 작업-3 | 전체 | 쉬움 | 중간 | 어려움 | 전체 | |
|---|---|---|---|---|---|---|---|---|---|
| GC-BC (BC-trans) [52] | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| LMP [5] | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| Ours (0% human) | 0.2 | 0.3 | 0.1 | 0.2 | 0.20 | 0.2 | 0.1 | 0.0 | 0.10 |
| Ours | 0.6 | 0.7 | 0.4 | 0.5 | 0.55 | 0.7 | 0.5 | 0.2 | 0.47 |
- 인간 플레이 데이터로 학습된 잠재 계획은 성능을 크게 향상시키며 최소한의 원격조작 데이터로도 장기 지향 작업에서 상당한 이득을 얻는다.
- 두 단계의 계층적 학습이 장기 지향 설정에서 엔드투엔드 방법보다 우수하다.
- GMM은 다모드 인간 궤적 포착에 필수적이며, GMM을 제거하면 성능과 일반화가 저하된다.
- KL 기반 정렬은 도메인 격차를 줄이고 계획을 개선한다.
- 더 많은 인간 플레이 데이터는 보지 못한 하위 목표 구성과 작업에 대한 일반화를 향상시키며, 인간 비디오를 통한 프롬프트는 로봇 프롬프트와 경쟁적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.