[논문 리뷰] Robot Parkour Learning
이 논문은 저비용 사족보행 로봇을 위한 단일 엔드-투-엔드 비전 기반 파쿠르 정책을 학습하기 위한 두 단계 강화 학습 시스템을 제시하며, 시뮬레이션에서 소프트/하드 다이나믹 제약으로 전문 기술을 학습하고 이를 온보드 깊이 비전 및 고유감각으로 작동하는 통합 정책으로 증류한다.
Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.
연구 동기 및 목표
- 자동주행 파쿠르를 소형의 저비용 로봇에 대한 일반화 가능한 비전 기반 보행 도전과제로서 동기를 부여한다.
- 소프트 및 하드 다이나믹 제약 하에서 다양한 파쿠르 기술을 학습하기 위한 두 단계 RL 프레임워크를 개발한다.
- 온보드 센싱을 사용하는 단일 비전 기반 정책에 여러 전문 기술을 융합하기 위한 증류 파이프라인을 만든다.
- 온보드 지각 및 계산으로 작동하는 정책을 위해 시뮬레이션-현실 간 전환 및 저비용 로봇에 배치를 시연한다.
제안 방법
- 두 단계 RL 학습: 자동 커리큘럼을 통해 장애물 침투를 허용하는 소프트 다이나믹 제약으로 사전 학습한 다음 하드 다이나믹 제약으로 미세 조정한다.
- 다섯 가지 파쿠르 기술을 각각 학습: 높은 장애물 등반, 큰 간격 도약, 낮은 바리케이드를 기어가며 통과, 슬릿을 지나기 위해 기울이기, 달리기. 각 기술은 앞진보와 에너지 보존이라는 간단한 보상을 사용하여 학습한다.
- 훈련 중에 차별화된 정보(장애물 거리, 높이, 너비 및 범주)가 기술 정책을 안내한다; 출력은 목표 관절 위치이다.
- 온보드 고유감각, 깊이 이미지 임베딩 및 이전 행동을 사용하여 단일 비전 기반 파쿠르 정책을 학습하기 위한 DAgger를 통한 증류; 감독 신호는 전문 정책에서 온다.
- 깊이 이미지 전처리, 온보드 지연 보정 및 모터 안전 조치를 통한 시뮬레이션-현실 간 다리 놓기; 배치는 얕은 CNN 임베딩의 깊이 및 GRU 기반 정책을 사용한다.
실험 결과
연구 질문
- RQ1단일 엔드-투-엔드 비전 기반 정책이 저비용 사족보행 로봇을 위해 다양한 파쿠르 기술을 학습할 수 있는가?
- RQ2소프트 다이나믹 제약에서 하드 다이나믹 제약으로의 두 단계 RL 접근 방식이 어려운 파쿠르 과제를 탐색하고 마스터하는 데 얼마나 효과적인가?
- RQ3증류가 여러 전문 기술을 온보드 센싱에만 의존하는 하나의 정책으로 통합할 수 있는가?
- RQ4제한된 계산 및 센싱을 가진 실제 로봇에 이러한 정책을 배치하기 위해 필요한 시뮬레이션-현실 간 전략은 무엇인가?
- RQ5학습된 정책은 서로 다른 로봇 플랫폼(A1 및 Go1)과 실제 환경에서 일반화되는가?
주요 결과
| 방법 | 등반 성공률 (%) | 도약 성공률 (%) | 기어가기 성공률 (%) | 기울이기 성공률 (%) | 주행 성공률 (%) | 등반 거리 (m) | 도약 거리 (m) | 기어가기 거리 (m) | 기울이기 거리 (m) | 주행 거리 (m) |
|---|---|---|---|---|---|---|---|---|---|---|
| Blind | 0 | 0 | 13 | 0 | 100 | 1.53 | 1.86 | 2.01 | 1.62 | 3.6 |
| MLP | 0 | 1 | 63 | 43 | 100 | 1.59 | 1.74 | 3.27 | 2.31 | 3.6 |
| No Distill | 0 | 0 | 73 | 0 | 100 | 1.57 | 1.75 | 2.76 | 1.86 | 3.6 |
| RMA | - | - | - | 74 | - | 2.70 | - | - | - | - |
| Ours (parkour policy) | 86 | 80 | 100 | 73 | 100 | 2.37 | 3.05 | 3.60 | 2.68 | 3.6 |
| Oracles w/o Soft Dyn | 0 | 0 | 93 | 86 | 100 | 1.54 | 1.73 | 3.58 | 1.73 | 3.6 |
| Oracles (w/ Soft Dyn) | 95 | 82 | 100 | 100 | 100 | 3.60 | 3.59 | 3.60 | 2.78 | 3.6 |
- 파쿠르 정책은 온보드 깊이 센싱과 고유감각만을 사용하여 0.40 m까지의 장애물 등반, 0.60 m까지의 간격 도약, 0.20 m의 바리케이드를 기어가며 통과, 0.28 m의 슬릿을 지나도록 기울이고, 달리기를 가능하게 한다.
- 소프트 다이나믹 제약을 가진 두 단계 RL은 학습 속도를 높이고 최종 성공률을 향상시키며 기준선 및 제거 실험들보다 우수하다.
- GRU 기반 비전 정책이 MLP 기반보다 우수하며, 기억은 등반과 도약 과제에서 필수적이다.
- 단일 비전 기반 파쿠르 정책으로의 증류가 시뮬레이션-현실 간 강건한 전이를 달성하고, 실제 로봇에서 맹목적 및 다른 기준선보다 우수하다.
- 정책은 시뮬레이션에서 두 로봇(Unitree A1 및 Go1)으로 일반화되며 10 Hz 깊이 입력과 50 Hz 제어 루프의 온보드 계산으로 작동한다.
- 이 방법은 실내외 실제 환경에서 강력한 성능을 보였으며 측정 지표에서 MPC 기준선을 능가하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.