Skip to main content
QUICK REVIEW

[論文レビュー] CEI: A Unified Interface for Cross-Embodiment Visuomotor Policy Learning in 3D Space

Tong Wu, Shoujie Li|arXiv (Cornell University)|Jan 14, 2026
Robot Manipulation and Learning被引用数 0
ひとこと要約

CEIはDirection Chamfer Distanceを用いて機能的類似性を導入し、異種ロボット実装間で demonstrations を合成・転送することで、シミュレーションと実世界の間でクロ embod-iment 視覚運動ポリシー学習を可能にします。

ABSTRACT

Robotic foundation models trained on large-scale manipulation datasets have shown promise in learning generalist policies, but they often overfit to specific viewpoints, robot arms, and especially parallel-jaw grippers due to dataset biases. To address this limitation, we propose Cross-Embodiment Interface (\CEI), a framework for cross-embodiment learning that enables the transfer of demonstrations across different robot arm and end-effector morphologies. \CEI introduces the concept of extit{functional similarity}, which is quantified using Directional Chamfer Distance. Then it aligns robot trajectories through gradient-based optimization, followed by synthesizing observations and actions for unseen robot arms and end-effectors. In experiments, \CEI transfers data and policies from a Franka Panda robot to extbf{16} different embodiments across extbf{3} tasks in simulation, and supports bidirectional transfer between a UR5+AG95 gripper robot and a UR5+Xhand robot across extbf{6} real-world tasks, achieving an average transfer ratio of 82.4\%. Finally, we demonstrate that \CEI can also be extended with spatial generalization and multimodal motion generation capabilities using our proposed techniques. Project website: https://cross-embodiment-interface.github.io/

研究の動機と目的

  • ロボット基盤モデルの embodiment バイアスに対処し、クロ embodiment データ合成と転送を実現する。
  • 異なるエンドエフェクタと形態学間のデモを翻訳する統一インターフェースを開発する。
  • 複数タスクにおける平行グリッパーと巧緻なハンド間でのシミュレーションと実世界転送を実証する。
  • CEIを空間的一般化と多模態運動生成で拡張し、頑健なポリシー学習を促進する。

提案手法

  • 各 embodiment 上の点-方向ペアの集合として機能表現を定義する。
  • ソースとターゲットの表現間でDirection Chamfer Distance (DCD) による機能的類似性を計算する。
  • 関節制限の正則化を伴うDCDの勾配ベース最適化を用いて、ソース軌道をターゲット embodiment に一致させる。
  • ターゲット観測を合成するためにソース点群にターゲットエンドエフェクタのメッシュを付加し、次フレームの関節位置としてターゲット動作を生成する。
  • CEI生成データ上で視覚運動ポリシー(3D Diffusion Policy)を訓練し、タスク間の性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1クロ embodiment 的機能類似性は、平行グリッパーから巧緻なハンド等、著しく異なるエンドエフェクタ間のデモ転送を可能にするか。
  • RQ2Direction Chamfer Distanceを用いた勾配ベースの軌道整列はクロ embodiment データ合成においてどれほど有効か。
  • RQ3CEI生成データを用いた場合と augmentation なし・非方向表現の場合のポリシー学習の利得はどの程度か。
  • RQ4空間的一般化と多模態運動生成は、実世界およびシミュレーション環境でのクロ embodiment 転送にどのような影響を与えるか。

主な発見

  • CEIは現実世界での双方向転送を6タスクで平均転送比82.4%達成。
  • シミュレーションでは、CEIは3タスクにおいて16のターゲット embodimentへ転送を成功させた。
  • CEI生成データでのポリシー訓練はタスクの平均成功率62%を達成し、augmentation なしのベースラインより優れている。
  • アブレーションによりDirection情報を除去すると平均成功率が低下し、方向整列の重要性を示す。
  • CEIは空間的一般化(例:ワークスペース全域でボタンを押す等)と多模態運動生成を実現しても性能を損なわない。
  • 実世界の双方向転送は6タスクで平均成功率70%を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。