Skip to main content
QUICK REVIEW

[논문 리뷰] TTT-Parkour: Rapid Test-Time Training for Perceptive Robot Parkour

Shaoting Zhu, Baijun Ye|arXiv (Cornell University)|2026. 02. 02.
Robotic Locomotion and Control인용 수 0
한 줄 요약

TTT-Parkour는 재구성된 실제 지형에서의 빠른 테스트-시간 학습을 통해 인간형 로봇이 약 10분 내에 복잡한 파크our 장애물을 마스터하도록 하는 실-시뮬-실제 프레임워크를 제안한다. 이는 다양한 지형에 대한 사전 학습과 고충실도 메시에서의 빠른 장면별 미세조정을 결합하여 강건한 제로샷 시뮬레이션-현실 전달을 달성한다.

ABSTRACT

Achieving highly dynamic humanoid parkour on unseen, complex terrains remains a challenge in robotics. Although general locomotion policies demonstrate capabilities across broad terrain distributions, they often struggle with arbitrary and highly challenging environments. To overcome this limitation, we propose a real-to-sim-to-real framework that leverages rapid test-time training (TTT) on novel terrains, significantly enhancing the robot's capability to traverse extremely difficult geometries. We adopt a two-stage end-to-end learning paradigm: a policy is first pre-trained on diverse procedurally generated terrains, followed by rapid fine-tuning on high-fidelity meshes reconstructed from real-world captures. Specifically, we develop a feed-forward, efficient, and high-fidelity geometry reconstruction pipeline using RGB-D inputs, ensuring both speed and quality during test-time training. We demonstrate that TTT-Parkour empowers humanoid robots to master complex obstacles, including wedges, stakes, boxes, trapezoids, and narrow beams. The whole pipeline of capturing, reconstructing, and test-time training requires less than 10 minutes on most tested terrains. Extensive experiments show that the policy after test-time training exhibits robust zero-shot sim-to-real transfer capability.

연구 동기 및 목표

  • 미래의 고도로 구조화된 unseen 지형에서 빠른 적응을 통해 Agile humanoid 파쿠르를 가능하게 하는 동기를 부여한다.
  • 현실 지형을 시뮬레이션 준비된 메시로 재구성하는 실제-시뮬-실제 워크플로우를 개발해 빠른 미세조정을 가능하게 한다.
  • 스케일 회복 및 프레임 정렬이 포함된 빠른, 피드포워드 RGB-D 기하 재구성 파이프라인을 제안한다.
  • 사전 학습 + 빠른 TTT의 두 단계 학습이 경사로/말뚝/상자/사다리꼴/좁은 보의 다양한 지형에서 강건한 성능을 내게 한다.
  • 캡처, 재구성, TTT를 포함하는 적응 과정이 대부분의 지형에서 약 10분 내에 완료됨을 보여준다.

제안 방법

  • 두 단계 학습: 절차적으로 생성된 지형에서 일반 정책을 사전 학습한 후 실제 세계 메시에 대해 빠르게 미세조정한다.
  • 효율적 기하 재구성: 자동 스케일 회복 및 프레임 정렬이 포함된 RGB-D 기반의 전달-재구성으로 시뮬레이션 준비된 메시를 생성한다.
  • 지각 로보틱스 정책과 PPO 학습, 깊이 인코더, 프 proprioception, 그리고 크리틱에 대한 비대칭 접근이 있는 배우-비평가 구성을 사용한다.
  • TTT 중의 네 가지 미세조정 전략: 전체 미세조정, 어댑터 모듈, 잔차 학습, 마지막 층 미세조정; 실험에서 전체 미세조정이 가장 우수하다.
Figure 1: Rapid test-time training on unseen terrain. By reconstructing the scene and fine-tuning in simulation, our framework enables the robot to master challenging obstacles within 10 minutes, turning failure (left) into success (right).
Figure 1: Rapid test-time training on unseen terrain. By reconstructing the scene and fine-tuning in simulation, our framework enables the robot to master challenging obstacles within 10 minutes, turning failure (left) into success (right).

실험 결과

연구 질문

  • RQ1사전 학습과 빠른 테스트-타임 학습이 보지 못한 매우 도전적인 지형을 횡단하는 데 필수적인가?
  • RQ2다양한 TTT 전략이 실제 지형에서 수렴성, 성능, 안정성에 어떤 영향을 미치는가?
  • RQ3어떤 재구성 소스(RGB-D, LiDAR, 아이폰, 수작업 설계)가 시뮬레이션-현실 전달 및 효율에 가장 좋은가?
  • RQ4새로운 실제 지형에서 정책이 얼마나 빨리 적응하는가, 그리고 수렴 기간에 영향을 미치는 요소는 무엇인가?

주요 결과

방법 / 지형들상자들쐐기들Nar.1Nar.2Nar.3함정1함정2Boston말뚝1말뚝2말뚝3Mix1Mix2
Pre-train98.6%0.1%81.2%88.4%65.6%0.0%7.4%0.0%4.4%0.0%9.9%0.0%0.1%
Scratch-1 (25k iters)0.0%0.0%100.0%100.0%0.0%0.0%0.0%0.0%0.0%0.0%0.0%0.0%0.0%
TTT-13 (1k iters)98.7%100.0%99.9%100.0%99.6%100.0%99.6%73.6%100.0%100.0%100.0%99.9%99.5%
TTT-1 (Converged)100.0%100.0%100.0%100.0%99.4%100.0%100.0%99.9%100.0%100.0%100.0%99.9%100.0%
  • 사전 학습과 빠른 TTT가 보전된 지형 대비 unseen 지형에서의 성공률을 크게 향상시킨다.
  • TTT-1은 대부분의 지형에서 약 120 이터레이션(대략 10분의 총 적응 시간) 내에 높은 성공으로 수렴한다.
  • 현장 실험에서 TTT-Parkour는 대부분의 지형에서 60% 이상, Boxes 및 Wedges에서는 100%의 성공을 달성하며 unseen 장애물에 대해 사전 학습된 정책보다 우수하다.
  • RGB-D 기반 재구성은 LiDAR와 비슷한 규모의 정확도를 제공하면서 더 빠르고 LiDAR 또는 아이폰 스캔보다 왜곡이 적다.
  • 전체 미세조정은 (어댑터, 잔차, 최종층) 기반의 PEFT 방법보다 수렴 속도 및 97%의 성공에 더 우수하다(지형별로 20-100+ 이터레이션 필요).
  • 수렴 분석에서 Scratch-from-scratch는 25k 이터레이션 이내에 수렴에 실패하는 반면, 다중 지형 TTT(TTT-13)는 지형별 TTT(TTT-1) 대비 수렴을 느리게 만들 수 있다.
Figure 2: TTT-Parkour . Our framework consists of three stages: (1) Pre-training: A general policy is pre-trained on diverse procedurally generated terrains to learn robust locomotion primitives. (2) Test-time Training (TTT): We reconstruct high-fidelity and simulation-ready meshes from real-world c
Figure 2: TTT-Parkour . Our framework consists of three stages: (1) Pre-training: A general policy is pre-trained on diverse procedurally generated terrains to learn robust locomotion primitives. (2) Test-time Training (TTT): We reconstruct high-fidelity and simulation-ready meshes from real-world c

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.