[论文解读] AdaMorph: Unified Motion Retargeting via Embodiment-Aware Adaptive Transformers
AdaMorph 提供一个单一统一的 Transformer 基模型,通过 embodiment-conditioned AdaLN 将人类动作重新定向到多种异质机器人,并采用物理一致的训练目标实现零-shot 泛化。
Retargeting human motion to heterogeneous robots is a fundamental challenge in robotics, primarily due to the severe kinematic and dynamic discrepancies between varying embodiments. Existing solutions typically resort to training embodiment-specific models, which scales poorly and fails to exploit shared motion semantics. To address this, we present AdaMorph, a unified neural retargeting framework that enables a single model to adapt human motion to diverse robot morphologies. Our approach treats retargeting as a conditional generation task. We map human motion into a morphology-agnostic latent intent space and utilize a dual-purpose prompting mechanism to condition the generation. Instead of simple input concatenation, we leverage Adaptive Layer Normalization (AdaLN) to dynamically modulate the decoder's feature space based on embodiment constraints. Furthermore, we enforce physical plausibility through a curriculum-based training objective that ensures orientation and trajectory consistency via integration. Experimental results on 12 distinct humanoid robots demonstrate that AdaMorph effectively unifies control across heterogeneous topologies, exhibiting strong zero-shot generalization to unseen complex motions while preserving the dynamic essence of the source behaviors.
研究动机与目标
- 在多种机器人 embodiments 中,将高级语义运动意图与低级形态执行解耦。
- 开发一个无需 embodiment 特定再训练即可工作的统一重定向框架。
- 结合 embodiment-conditioned 提示与 AdaLN,使意图与多样的运动学流形对齐。
- 通过可微分积分加强物理可行性与长期航迹的一致性。
- 展示跨 embodiment 的性能和在多个人形平台上的零-shot 泛化。
提出的方法
- 使用局部速度、角速度、投影重力和 SMPL 关节动作来在 canonical 基坐标系中表征人类运动。
- 通过共享的 Transformer 编码器将人类运动映射到对形态无关的潜在意图空间。
- 通过双路径提示进行解码调控:带机器人提示的 token 级交叉注意力和基于 AdaLN 的逐层调制。
- 使用 embodiment-specific 输出适配器将共享的意图投影到每个机器人的关节空间。
- 以包含可微分的死记忆、SO(3) 投影和基于课程表的计划安排的物理约束目标进行训练。
实验结果
研究问题
- RQ1单一的统一模型是否可以在不进行 embodiment-specific 再训练的情况下有效控制多种异质机器人形态?
- RQ2模型是否学习到反映机器人形态相似性的拓扑感知表示?
- RQ3在保持运动语义的前提下,该框架是否能够对未知运动域实现零-shot 泛化?
主要发现
- 该模型在对未见过的复杂运动(如民间舞蹈)进行零-shot 泛化方面在12个训练机器人上表现强劲。
- 人类输入与机器人输出之间的根速度一致性在所有评估的 embodiment 中的中位数 PCC 均超过 0.8,部分如 Unitree G1/H1 约为 0.95。
- 全身活动一致性(平均关节速度幅值)在各 embodiment 中的中位数 PCC 也超过 0.85。
- 学习到的机器人提示呈现块对角线的余弦相似性结构,表明潜在表示具有拓扑感知性。
- t-SNE 聚类揭示了机器人内的一致性和机器人间的语义分组,与形态相似性对齐。
- 定性 MuJoCo 可视化证实在多样化 embodiment 间的忠实再定向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。