[论文解读] TTT-Parkour: Rapid Test-Time Training for Perceptive Robot Parkour
TTT-Parkour 提出一个真实-仿真-真实框架,在重建的真实地形上进行快速测试时训练,使 humanoid 能在大约 10 分钟内掌握复杂的跑酷障碍。它将对多样地形的预训练与对高保真网格的快速逐场微调结合起来,实现鲁棒的零-shot 仿真到真实传输。
Achieving highly dynamic humanoid parkour on unseen, complex terrains remains a challenge in robotics. Although general locomotion policies demonstrate capabilities across broad terrain distributions, they often struggle with arbitrary and highly challenging environments. To overcome this limitation, we propose a real-to-sim-to-real framework that leverages rapid test-time training (TTT) on novel terrains, significantly enhancing the robot's capability to traverse extremely difficult geometries. We adopt a two-stage end-to-end learning paradigm: a policy is first pre-trained on diverse procedurally generated terrains, followed by rapid fine-tuning on high-fidelity meshes reconstructed from real-world captures. Specifically, we develop a feed-forward, efficient, and high-fidelity geometry reconstruction pipeline using RGB-D inputs, ensuring both speed and quality during test-time training. We demonstrate that TTT-Parkour empowers humanoid robots to master complex obstacles, including wedges, stakes, boxes, trapezoids, and narrow beams. The whole pipeline of capturing, reconstructing, and test-time training requires less than 10 minutes on most tested terrains. Extensive experiments show that the policy after test-time training exhibits robust zero-shot sim-to-real transfer capability.
研究动机与目标
- 通过快速适应性推动在未见的高度结构化地形上实现灵活的人形跑酷。
- 开发一个真实-仿真-真实工作流,将真实地形重建为可在仿真中进行快速微调的网格。
- 提出一个快速的前馈 RGB-D 几何重建管线,具备尺度恢复与帧对齐。
- 证明两阶段学习(预训练 + 快速 TTT)在楔子、桩、箱、梯形和窄梁等地形上实现鲁棒性能。
- 展示适应过程(捕获、重建、TTT)在大多数地形上约 10 分钟内完成。
提出的方法
- 两阶段学习:在程序生成的地形上预训练通用策略,然后在真实网格上快速微调。
- 高效几何重建:基于前馈的 RGB-D 重建,具备自动尺度恢复与帧对齐,输出可用于仿真的网格。
- 感知式运动策略:使用 PPO 训练、深度编码器、本体感知,以及运用对评论家具有不对称访问权限的演员-评论家架构。
- TTT 过程中的四种微调策略:全量微调、适配器模块、残差学习,以及最后一层微调;在实验中全量微调表现最佳。

实验结果
研究问题
- RQ1预训练加快速测试时训练对穿越未见、极具挑战性的地形是否至关重要?
- RQ2不同的 TTT 策略如何影响真实地形上的收敛、性能和稳定性?
- RQ3哪种重建源(RGB-D、LiDAR、iPhone、手工设计)能提供最佳的仿真到真实传输与效率?
- RQ4策略在新真实地形上的适应速度有多快,哪些因素影响收敛时长?
主要发现
| 方法 / 地形 | 箱子 | 楔子 | Nar.1 | Nar.2 | Nar.3 | Trap.1 | Trap.2 | Boston | Stake1 | Stake2 | Stake3 | Mix1 | Mix2 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Pre-train | 98.6% | 0.1% | 81.2% | 88.4% | 65.6% | 0.0% | 7.4% | 0.0% | 4.4% | 0.0% | 9.9% | 0.0% | 0.1% |
| Scratch-1 (25k iters) | 0.0% | 0.0% | 100.0% | 100.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% |
| TTT-13 (1k iters) | 98.7% | 100.0% | 99.9% | 100.0% | 99.6% | 100.0% | 99.6% | 73.6% | 100.0% | 100.0% | 100.0% | 99.9% | 99.5% |
| TTT-1 (Converged) | 100.0% | 100.0% | 100.0% | 100.0% | 99.4% | 100.0% | 100.0% | 99.9% | 100.0% | 100.0% | 100.0% | 99.9% | 100.0% |
- 与仅进行预训练或从零开始训练相比,预训练加快速 TTT 在未见地形上的成功率显著提高。
- TTT-1 在大多数地形上约在 120 次迭代内收敛到高成功率(约合总适应时间约 10 分钟)。
- 真实世界实验表明 TTT-Parkour 在大多数地形上实现 60% 以上的成功率,在箱和楔地形上达到 100%,并且优于未见障碍物时的预训练策略。
- 基于 RGB-D 的重建在尺度保真度方面与 LiDAR 相当、速度更快且产生的伪影比 LiDAR 或 iPhone 扫描少。
- 全量微调在收敛至 97% 的成功率方面优于 PEFT 方法(适配器、残差、最后一层),在测试地形上迭代次数约 20-100+,视地形而定。
- 收敛性分析表明从零开始并不在 25k 次迭代内收敛,而多地形 TTT(TTT-13)在某些情况下较地形特定 TTT(TTT-1)可能降低收敛速度。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。