Skip to main content
QUICK REVIEW

[論文レビュー] AdaMorph: Unified Motion Retargeting via Embodiment-Aware Adaptive Transformers

Haoyu Zhang, Shibo Jin|arXiv (Cornell University)|Jan 12, 2026
Robot Manipulation and Learning被引用数 0
ひとこと要約

AdaMorph は、 embodiment-conditioned AdaLN と物理的整合性を持つ学習目標を用いて、複数の異種 humanoid ロボットへ人間の動作を retarget する単一の統一 Transformer ベースモデルを提示します。

ABSTRACT

Retargeting human motion to heterogeneous robots is a fundamental challenge in robotics, primarily due to the severe kinematic and dynamic discrepancies between varying embodiments. Existing solutions typically resort to training embodiment-specific models, which scales poorly and fails to exploit shared motion semantics. To address this, we present AdaMorph, a unified neural retargeting framework that enables a single model to adapt human motion to diverse robot morphologies. Our approach treats retargeting as a conditional generation task. We map human motion into a morphology-agnostic latent intent space and utilize a dual-purpose prompting mechanism to condition the generation. Instead of simple input concatenation, we leverage Adaptive Layer Normalization (AdaLN) to dynamically modulate the decoder's feature space based on embodiment constraints. Furthermore, we enforce physical plausibility through a curriculum-based training objective that ensures orientation and trajectory consistency via integration. Experimental results on 12 distinct humanoid robots demonstrate that AdaMorph effectively unifies control across heterogeneous topologies, exhibiting strong zero-shot generalization to unseen complex motions while preserving the dynamic essence of the source behaviors.

研究の動機と目的

  • 複数のロボット実体表現にわたって高レベルの意味的運動意図を低レベルの形態実行と切り離す。
  • embodiment 固有の再訓練なしで機能する統一的な retargeting フレームワークを開発する。
  • embodiment 条件付きプロンプトと AdaLN を組み合わせて、意図を多様な運動学的多様体に整合させる。
  • differentiable な積分を通じて物理的妥当性と長期軌道の一貫性を強制する。
  • 複数の Humanoid プラットフォームに対して Cross-embodiment 性能とゼロショット一般化を実証する。

提案手法

  • 人間の動作を canonical base-frame で局所速度、角速度、投影重力、SMPL 関節運動を用いて表現する。
  • 共有 Transformer エンコーダを用いて、人間の動作を形態非依存の潜在意図空間に写像する。
  • デコードをデュアルパスのプロンプトで条件付けする:ロボットプロンプトとのトークンレベルのクロスアテンションと AdaLN に基づく層ごとの変調。
  • 共有された意図を各ロボットの関節空間へ射影するための embodiment-specific 出力アダプタを使用する。
  • 微分可能なデッドレコニング、SO(3) 投影、カリキュラムベースのスケジュールを含む物理制約付き目的関数で訓練する。

実験結果

リサーチクエスチョン

  • RQ1単一の統一モデルが embodiment-specific 再訓練なしで複数の異種ロボット形態を効果的に制御できるか。
  • RQ2モデルがロボット間の形態的類似性を反映するトポロジー認識表現を学習するか。
  • RQ3フレームワークが未知の運動ドメインへゼロショット一般化しつつ運動意味を保てるか。

主な発見

  • モデルは訓練済み 12 台のロボットに対して未見の複雑な運動(例:フォークダンス)への強いゼロショット一般化を達成する。
  • 人間入力とロボット出力間の根源速度の一貫性は、評価対象の全体的な embodiment で中央値の PCC が 0.8 超を達成し、Unitree G1/H1 では約 0.95 程度となる。
  • 全身活動の一貫性(平均関節速度の大きさ)も embodiment across で中央値の PCC が 0.85 以上を示す。
  • 学習されたロボットプロンプトはブロック対角線状のコサイン類似度構造を示し、トポロジーを意識した潜在表現を示唆する。
  • t-SNE クラスタリングは、ロボット内の一貫性とロボット間の意味的グルーピングを形態的類似性と一致させて示す。
  • 定性的な MuJoCo ビジュアライゼーションは、多様な embodiment に対して忠実な retargeting を確認する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。