[논문 리뷰] TTT-Parkour: Rapid Test-Time Training for Perceptive Robot Parkour
TTT-Parkour는 재구성된 실제 지형에서의 빠른 테스트-시간 학습을 통해 인간형 로봇이 약 10분 내에 복잡한 파크our 장애물을 마스터하도록 하는 실-시뮬-실제 프레임워크를 제안한다. 이는 다양한 지형에 대한 사전 학습과 고충실도 메시에서의 빠른 장면별 미세조정을 결합하여 강건한 제로샷 시뮬레이션-현실 전달을 달성한다.
Achieving highly dynamic humanoid parkour on unseen, complex terrains remains a challenge in robotics. Although general locomotion policies demonstrate capabilities across broad terrain distributions, they often struggle with arbitrary and highly challenging environments. To overcome this limitation, we propose a real-to-sim-to-real framework that leverages rapid test-time training (TTT) on novel terrains, significantly enhancing the robot's capability to traverse extremely difficult geometries. We adopt a two-stage end-to-end learning paradigm: a policy is first pre-trained on diverse procedurally generated terrains, followed by rapid fine-tuning on high-fidelity meshes reconstructed from real-world captures. Specifically, we develop a feed-forward, efficient, and high-fidelity geometry reconstruction pipeline using RGB-D inputs, ensuring both speed and quality during test-time training. We demonstrate that TTT-Parkour empowers humanoid robots to master complex obstacles, including wedges, stakes, boxes, trapezoids, and narrow beams. The whole pipeline of capturing, reconstructing, and test-time training requires less than 10 minutes on most tested terrains. Extensive experiments show that the policy after test-time training exhibits robust zero-shot sim-to-real transfer capability.
연구 동기 및 목표
- 미래의 고도로 구조화된 unseen 지형에서 빠른 적응을 통해 Agile humanoid 파쿠르를 가능하게 하는 동기를 부여한다.
- 현실 지형을 시뮬레이션 준비된 메시로 재구성하는 실제-시뮬-실제 워크플로우를 개발해 빠른 미세조정을 가능하게 한다.
- 스케일 회복 및 프레임 정렬이 포함된 빠른, 피드포워드 RGB-D 기하 재구성 파이프라인을 제안한다.
- 사전 학습 + 빠른 TTT의 두 단계 학습이 경사로/말뚝/상자/사다리꼴/좁은 보의 다양한 지형에서 강건한 성능을 내게 한다.
- 캡처, 재구성, TTT를 포함하는 적응 과정이 대부분의 지형에서 약 10분 내에 완료됨을 보여준다.
제안 방법
- 두 단계 학습: 절차적으로 생성된 지형에서 일반 정책을 사전 학습한 후 실제 세계 메시에 대해 빠르게 미세조정한다.
- 효율적 기하 재구성: 자동 스케일 회복 및 프레임 정렬이 포함된 RGB-D 기반의 전달-재구성으로 시뮬레이션 준비된 메시를 생성한다.
- 지각 로보틱스 정책과 PPO 학습, 깊이 인코더, 프 proprioception, 그리고 크리틱에 대한 비대칭 접근이 있는 배우-비평가 구성을 사용한다.
- TTT 중의 네 가지 미세조정 전략: 전체 미세조정, 어댑터 모듈, 잔차 학습, 마지막 층 미세조정; 실험에서 전체 미세조정이 가장 우수하다.

실험 결과
연구 질문
- RQ1사전 학습과 빠른 테스트-타임 학습이 보지 못한 매우 도전적인 지형을 횡단하는 데 필수적인가?
- RQ2다양한 TTT 전략이 실제 지형에서 수렴성, 성능, 안정성에 어떤 영향을 미치는가?
- RQ3어떤 재구성 소스(RGB-D, LiDAR, 아이폰, 수작업 설계)가 시뮬레이션-현실 전달 및 효율에 가장 좋은가?
- RQ4새로운 실제 지형에서 정책이 얼마나 빨리 적응하는가, 그리고 수렴 기간에 영향을 미치는 요소는 무엇인가?
주요 결과
| 방법 / 지형들 | 상자들 | 쐐기들 | Nar.1 | Nar.2 | Nar.3 | 함정1 | 함정2 | Boston | 말뚝1 | 말뚝2 | 말뚝3 | Mix1 | Mix2 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Pre-train | 98.6% | 0.1% | 81.2% | 88.4% | 65.6% | 0.0% | 7.4% | 0.0% | 4.4% | 0.0% | 9.9% | 0.0% | 0.1% |
| Scratch-1 (25k iters) | 0.0% | 0.0% | 100.0% | 100.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% |
| TTT-13 (1k iters) | 98.7% | 100.0% | 99.9% | 100.0% | 99.6% | 100.0% | 99.6% | 73.6% | 100.0% | 100.0% | 100.0% | 99.9% | 99.5% |
| TTT-1 (Converged) | 100.0% | 100.0% | 100.0% | 100.0% | 99.4% | 100.0% | 100.0% | 99.9% | 100.0% | 100.0% | 100.0% | 99.9% | 100.0% |
- 사전 학습과 빠른 TTT가 보전된 지형 대비 unseen 지형에서의 성공률을 크게 향상시킨다.
- TTT-1은 대부분의 지형에서 약 120 이터레이션(대략 10분의 총 적응 시간) 내에 높은 성공으로 수렴한다.
- 현장 실험에서 TTT-Parkour는 대부분의 지형에서 60% 이상, Boxes 및 Wedges에서는 100%의 성공을 달성하며 unseen 장애물에 대해 사전 학습된 정책보다 우수하다.
- RGB-D 기반 재구성은 LiDAR와 비슷한 규모의 정확도를 제공하면서 더 빠르고 LiDAR 또는 아이폰 스캔보다 왜곡이 적다.
- 전체 미세조정은 (어댑터, 잔차, 최종층) 기반의 PEFT 방법보다 수렴 속도 및 97%의 성공에 더 우수하다(지형별로 20-100+ 이터레이션 필요).
- 수렴 분석에서 Scratch-from-scratch는 25k 이터레이션 이내에 수렴에 실패하는 반면, 다중 지형 TTT(TTT-13)는 지형별 TTT(TTT-1) 대비 수렴을 느리게 만들 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.