[論文レビュー] TTT-Parkour: Rapid Test-Time Training for Perceptive Robot Parkour
TTT-Parkour は、現実の地形を再構築して実機へ素早く適応させるリアル-ツー-シム-ツー-リアルのフレームワークを提案し、再構成された現実地形上でのテスト時訓練を通じて人型ロボットが複雑なパルクール障害を約10分程度で習得可能にする。多様な地形での事前学習と高忠実度メッシュ上での素早いシーンごとのファインチューニングを組み合わせ、ロバストなゼロショットのシム-トゥ-リアル転送を実現する。
Achieving highly dynamic humanoid parkour on unseen, complex terrains remains a challenge in robotics. Although general locomotion policies demonstrate capabilities across broad terrain distributions, they often struggle with arbitrary and highly challenging environments. To overcome this limitation, we propose a real-to-sim-to-real framework that leverages rapid test-time training (TTT) on novel terrains, significantly enhancing the robot's capability to traverse extremely difficult geometries. We adopt a two-stage end-to-end learning paradigm: a policy is first pre-trained on diverse procedurally generated terrains, followed by rapid fine-tuning on high-fidelity meshes reconstructed from real-world captures. Specifically, we develop a feed-forward, efficient, and high-fidelity geometry reconstruction pipeline using RGB-D inputs, ensuring both speed and quality during test-time training. We demonstrate that TTT-Parkour empowers humanoid robots to master complex obstacles, including wedges, stakes, boxes, trapezoids, and narrow beams. The whole pipeline of capturing, reconstructing, and test-time training requires less than 10 minutes on most tested terrains. Extensive experiments show that the policy after test-time training exhibits robust zero-shot sim-to-real transfer capability.
研究の動機と目的
- 未見で高度に構造化された地形上で、迅速な適応を通じて agile な人型パルクールを実現する動機づけ。
- 実地地形をシミュレーション準備用メッシュへ再構成するリアル-ツー-シム-ツー-リアル ワークフローを開発し、迅速な微調整を可能にする。
- スケール復元とフレーム整合を含む、スケール復元付きのRGB-D ジオメトリ再構成パイプラインを提案。
- 二段階学習(事前学習 + 迅速 TT T )が、ウェッジ、支柱、ボックス、台形、細長い梁といった障害物で頑健な性能を生み出すことを示す。
- 適応プロセス(キャプチャ、再構成、TTT)が大半の地形で約10分程度で完了することを示す。
提案手法
- 二段階学習: 手続き的に生成された地形で一般的な方策を事前学習し、現実世界のメッシュ上で素早くファインチューニング。
- 効率的なジオメトリ再構成: 自動スケール復元とフレーム整合を備えた前方伝播型RGB-D再構成により、シミュレーション準備メッシュを作成。
- 知覚的移動方策: PPO 学習、深度エンコーダー、自己受容、アクター-クリティック構成(クリティックへの特権情報の非対称アクセス)を用いた。
- TTT 中の4つのファインチューニング戦略: フルファインチューニング、アダプタモジュール、残差学習、ラストレイヤー微調整。実験ではフルファインチューニングが最良。

実験結果
リサーチクエスチョン
- RQ1未見で極めて難易度の高い地形を traversable にするには、事前学習と迅速な TT T が不可欠か。
- RQ2TTT の異なる戦略が現実地形上の収束、性能、安定性にどう影響するか。
- RQ3どの再構成ソース(RGB-D、LiDAR、iPhone、手作り) が最適な sim-to-real 伝達と効率をもたらすか。
- RQ4新しい現実地形上でポリシーがどれくらい速く適応でき、収束時間に影響を与える要因は何か。
主な発見
| Methods / Terrains | Boxes | Wedges | Nar.1 | Nar.2 | Nar.3 | Trap.1 | Trap.2 | Boston | Stake1 | Stake2 | Stake3 | Mix1 | Mix2 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Pre-train | 98.6% | 0.1% | 81.2% | 88.4% | 65.6% | 0.0% | 7.4% | 0.0% | 4.4% | 0.0% | 9.9% | 0.0% | 0.1% |
| Scratch-1 (25k iters) | 0.0% | 0.0% | 100.0% | 100.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% |
| TTT-13 (1k iters) | 98.7% | 100.0% | 99.9% | 100.0% | 99.6% | 100.0% | 99.6% | 73.6% | 100.0% | 100.0% | 100.0% | 99.9% | 99.5% |
| TTT-1 (Converged) | 100.0% | 100.0% | 100.0% | 100.0% | 99.4% | 100.0% | 100.0% | 99.9% | 100.0% | 100.0% | 100.0% | 99.9% | 100.0% |
- 事前学習と迅速な TTT は、単なる事前学習やScratch 学習と比べて未見地形での成功率を著しく高める。
- TTT-1 はほとんどの地形で約120 イテレーション(約10分の総適応時間)で高い成功率へ収束。
- 実機実験では TTT-Parkour がほとんどの地形で60%以上、ボックスとウェッジで100%の成功を達成し、未見の障害物に対する事前学習ポリシーを上回る。
- RGB-D ベースの再構成は LiDAR に匹敵する指標スケールの忠実度を達成し、LiDAR や iPhone のスキャンよりも速く、アーティファクトが少ない。
- フルファインチューニングは PEFT 手法(アダプタ、残差、ラストレイヤー)より収束性が高く、 tested terrains で 97% の成功に達する(地形によって 20-100+ イテレーション)。
- 収束解析では Scratch-from-scratch は 25k イテレーション以内の収束に至らず、マルチ地形 TT T(TTT-13)は地形特化 TT T(TTT-1)より収束を遅らせる可能性がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。