[論文レビュー] RoboForge: Physically Optimized Text-guided Whole-Body Locomotion for Humanoids
RoboForge は、テキストからモーション生成と物理ベースの最適化を双方向に結びつける latent-driven フレームワークを提案し、物理的に妥当でリターゲット不要な humanoid 移動を実現。シミュレーションと実機の両方で生成品質と追従安定性を向上させる。
While generative models have become effective at producing human-like motions from text, transferring these motions to humanoid robots for physical execution remains challenging. Existing pipelines are often limited by retargeting, where kinematic quality is undermined by physical infeasibility, contact-transition errors, and the high cost of real-world dynamical data. We present a unified latent-driven framework that bridges natural language and whole-body humanoid locomotion through a retarget-free, physics-optimized pipeline. Rather than treating generation and control as separate stages, our key insight is to couple them bidirectionally under physical constraints.We introduce a Physical Plausibility Optimization (PP-Opt) module as the coupling interface. In the forward direction, PP-Opt refines a teacher-student distillation policy with a plausibility-centric reward to suppress artifacts such as floating, skating, and penetration. In the backward direction, it converts reward-optimized simulation rollouts into high-quality explicit motion data, which is used to fine-tune the motion generator toward a more physically plausible latent distribution. This bidirectional design forms a self-improving cycle: the generator learns a physically grounded latent space, while the controller learns to execute latent-conditioned behaviors with dynamical integrity.Extensive experiments on the Unitree G1 humanoid show that our bidirectional optimization improves tracking accuracy and success rates. Across IsaacLab and MuJoCo, the implicit latent-driven pipeline consistently outperforms conventional explicit retargeting baselines in both precision and stability. By coupling diffusion-based motion generation with physical plausibility optimization, our framework provides a practical path toward deployable text-guided humanoid intelligence.
研究の動機と目的
- humanoid ロボットのテキストからモーション生成と物理的実行のギャップを埋める。
- 潜在表現を用いたリターゲット不要の制御インターフェースで明示的なリターゲット失敗を排除する。
- PP-Opt を導入し、モーション生成と追従を物理的制約の下で共同最適化する。
- シミュレーションと Unitree G1 ハードウェアで安定性と物理的妥当性の向上を実証する。
- 反復的な PP-Opt の改良が生成品質と実行可能性に累積的な向上をもたらすことを示す。
提案手法
- テキストプロンプトに条件づけられた潜在空間拡散型モーションジェネレータを用いてモーション潜在表現を生成する。
- 物理的妥当性最適化 (PP-Opt) モジュールを導入し、双方向インターフェースを提供する。前方最適化は物理ベースの報酬でトラッカーを改善し、後方の改良は高品質な精練データを用いてモーションジェネレータを更新する。
- シミュレーションで教師ポリシーを訓練し、DAgger によって潜在駆動制御のデプロイ可能な学生ポリシーに蒸留する。
- モーション品質管理を適用して高品質な改良データセットを編成し、モーションジェネレータを微調整する。
- ループ内で生成→実行→フィルタ→再生成を行い、物理的に妥当な潜在分布を実現する。
- Unitree G1 および IsaacLab と MuJoCo のシミュレータで sim-to-real 展開を評価する。
実験結果
リサーチクエスチョン
- RQ1 展開時に明示的なリターゲット参照を完全に潜在駆動推論パイプラインに置換できるか。
- RQ2 PP-Opt 内の物理ベースの最適化はダイナミクスと接触制約下でモーション生成と追従の両方を改善するか。
- RQ3 何回の PP-Opt 改良ラウンドが利得を生み、収益の減衰が現れる前にどの程度の性能向上が得られるか。
- RQ4 暗黙の潜在条件付けは明示的リターゲティングより安定で物理的に妥当な移動を実現するのに優れているか。
主な発見
| Method | R-Precision (RTOP-1) | R-Precision (RTOP-2) | R-Precision (RTOP-3) | FID | Div | Penetrate | Float | Skate |
|---|---|---|---|---|---|---|---|---|
| Ground-Truth | 0.552 | 0.733 | 0.782 | 0.008 | – | – | – | – |
| MLD | 0.523 | 0.703 | 0.761 | 0.484 | 9.734 | 0.042 | 1.744 | 0.064 |
| MLD&PP-Opt | 0.531 | 0.709 | 0.766 | 0.462 | 9.682 | 0.000 | 0.713 | 0.061 |
- PP-Opt は生成モーションの非物理的アーティファクト(貫通、浮遊、滑走)を低減する(貫通 0.042 から 0.000、浮遊 1.744 から 0.713、滑走 0.064 から 0.061)。
- IsaacLab の MLD+PP-Opt による追従は成功率が高く誤差が小さくなる(Succ が 0.96 対 0.94、E_mpJPE が 0.11 対 0.14、E_mpKPE が 0.09 対 0.11); MuJoCo でも同様に改善(Succ が 0.71 対 0.63、E_mpJPE が 0.21 対 0.26、E_mpKPE が 0.20 対 0.24)。
- 反復的な PP-Opt ラウンドは累積的な利得を生む(One-Round から Three-Round へ:Top-1 RTOP-1 が 0.531 から 0.537、FID が 0.462 から 0.454、Penetration は 0.000 のまま、Float/Skate は徐々に改善)。
- 暗黙的潜在駆動制御は IsaacLab および MuJoCo シミュレーションの両方で明示的リターゲティングより優れている(Implicit: Succ 0.96/0.71、Explicit: 0.91/0.62、E_mpJPE 0.11/0.21 vs 0.23/0.26)。
- PP-Opt を用いた生成→実行→フィルタ→再生成のクローズドループは、デプロイ可能なテキスト指示による humanoid 移動へ向けた頑健な経路を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。