QUICK REVIEW

[論文レビュー] Skill-Aware Diffusion for Generalizable Robotic Manipulation

Aoshen Huang, Jiaming Chen|arXiv (Cornell University)|Jan 16, 2026

Robot Manipulation and Learning被引用数 0

ひとこと要約

SADiff は、スキル意識のエンコーディングとスキル制約付き拡散モデルを導入して、タスク一般化可能なオブジェクト中心の運動フローを学習し、2D フローを 3D 行動へ写像するスキル取得変換を介して、IsaacSkill データセット上で sim-to-real 移行を検証する。

ABSTRACT

Robust generalization in robotic manipulation is crucial for robots to adapt flexibly to diverse environments. Existing methods usually improve generalization by scaling data and networks, but model tasks independently and overlook skill-level information. Observing that tasks within the same skill share similar motion patterns, we propose Skill-Aware Diffusion (SADiff), which explicitly incorporates skill-level information to improve generalization. SADiff learns skill-specific representations through a skill-aware encoding module with learnable skill tokens, and conditions a skill-constrained diffusion model to generate object-centric motion flow. A skill-retrieval transformation strategy further exploits skill-specific trajectory priors to refine the mapping from 2D motion flow to executable 3D actions. Furthermore, we introduce IsaacSkill, a high-fidelity dataset containing fundamental robotic skills for comprehensive evaluation and sim-to-real transfer. Experiments in simulation and real-world settings show that SADiff achieves good performance and generalization across various manipulation tasks. Code, data, and videos are available at https://sites.google.com/view/sa-diff.

研究の動機と目的

diverse objects & environments にまたがるロボティック操作の頑健な一般化を動機付ける。
同一スキル領域内でタスク間の共通な運動パターンを明らかにするためのスキルレベル情報を活用する。
スキルトークンで条件付けされたオブジェクト中心の運動フローを生成するスキル意識型拡散フレームワークを開発する。
スキル取得変換を介して 2D 運動フローを実行可能な 3D 動作へ改良する。
スキル中心の評価と sim-to-real 移行のための高忠実度データセット（IsaacSkill）を提供する。

提案手法

モ multimodal 入力からスキル特有の情報を捉える学習可能なスキルトークンを持つスキル意識エンコーディングモジュールを導入する。
スキルトークンで条件付けられた 2D オブジェクト中心の運動フローを生成するスキル制約付き拡散モデルを訓練し、 denoising loss に加えてスキル特有の損失（分類とコントラスト）で学習する。
実行可能な 3D 動作へのマッピングを洗練するために、スキル priors を取得するスキル取得変換戦略を適用する。
VAE ベースのフローエンコード/デコードと UNet ベースのノイズ予測器を用いた二段階トレーニングパイプラインを使用し、マルチモーダル融合のために CLIP 特徴を活用する。
Qwen-VL でターゲットオブジェクトを検出し TAPIR でキーポイントを追跡することにより、デモンストレーションから運動フローを抽出する。

実験結果

リサーチクエスチョン

RQ1スキル意識表現は同じスキルカテゴリー内の未知の操作タスクへの一般化を改善できるのか。
RQ2スキルトークンで拡散フロー生成を条件付けると、タスク非依存アプローチよりも頑健で正確な運動フローを生み出すのか。
RQ3スキル取得変換によるスキル特有の軌跡 priors の組み込みは 2D-to-3D の動作写像とノイズ耐性を改善するのか。
RQ4IsaacSkill データセットを用いたシミュレーションから実世界への移行（sim-to-real）はどれほどうまく機能するのか。

主な発見

SADiff はシミュレーションと実世界の両方で多様な操作タスクと環境に対して良好な一般化を示す。
IsaacSkill はスキル中心の評価を可能にし、sim-to-real 移行をサポートする。
スキル取得変換は 2D の運動フローを 3D 動作へ写像する際の精度と一貫性を向上させる。
denoising loss、スキル分類損失、スキルコントラスト損失の組み合わせは、意図したスキルに整合する頑健なフロー生成を促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。