[论文解读] Skill-Aware Diffusion for Generalizable Robotic Manipulation
SADiff 引入具技能感知的编码与受技能约束的扩散模型,以学习面向任务的一般化的以对象为中心的运动流,并通过一种技能检索变换将二维流映射到三维动作,在 IsaacSkill 数据集上用于仿真到现实的迁移得到验证。
Robust generalization in robotic manipulation is crucial for robots to adapt flexibly to diverse environments. Existing methods usually improve generalization by scaling data and networks, but model tasks independently and overlook skill-level information. Observing that tasks within the same skill share similar motion patterns, we propose Skill-Aware Diffusion (SADiff), which explicitly incorporates skill-level information to improve generalization. SADiff learns skill-specific representations through a skill-aware encoding module with learnable skill tokens, and conditions a skill-constrained diffusion model to generate object-centric motion flow. A skill-retrieval transformation strategy further exploits skill-specific trajectory priors to refine the mapping from 2D motion flow to executable 3D actions. Furthermore, we introduce IsaacSkill, a high-fidelity dataset containing fundamental robotic skills for comprehensive evaluation and sim-to-real transfer. Experiments in simulation and real-world settings show that SADiff achieves good performance and generalization across various manipulation tasks. Code, data, and videos are available at https://sites.google.com/view/sa-diff.
研究动机与目标
- 在多样化对象和环境中推动机器人操作的鲁棒泛化。
- 利用技能层信息揭示同一技能领域内跨任务的共享运动模式。
- 开发一个具技能感知的扩散框架,在技能令牌条件下生成面向对象的运动流。
- 通过技能检索变换将二维运动流 refined 成可执行的三维动作。
- 提供一个高保真数据集(IsaacSkill)用于以技能为中心的评估及仿真到现实的迁移。
提出的方法
- 引入具技能感知的编码模块,使用可学习的技能令牌来捕获来自多模态输入的技能特定信息。
- 训练一个受技能约束的扩散模型,在技能令牌条件下生成二维面向对象的运动流,采用去噪损失 plus 技能特定损失(分类和对比)。
- 应用一种技能检索变换策略,检索技能先验以细化二维到三维映射,使其成为可执行动作。
- 使用两阶段训练管线,结合基于 VAE 的流编码/解码和基于 UNet 的噪声预测器,利用 CLIP 特征进行多模态融合。
- 通过 Qwen-VL 检测目标对象并用 TAPIR 跟踪关键点,从演示中提取运动流。
实验结果
研究问题
- RQ1技能感知表示是否能提高同一技能类别中对未见操控任务的泛化?
- RQ2在扩散流生成中以技能令牌进行条件化,是否比无关任务的方法产生更鲁棒、精准的运动流?
- RQ3通过技能检索变换引入技能特定轨迹先验,是否改善二维到三维动作映射及对噪声的鲁棒性?
- RQ4使用 IsaacSkill 数据集,所提框架从仿真到现实部署的迁移效果如何?
主要发现
- SADiff 展示了在仿真和现实环境中对多样化操控任务的良好泛化。
- IsaacSkill 实现了以技能为中心的评估并支持仿真到现实的迁移。
- 技能检索变换在将二维运动流映射到三维动作时提升了精度和一致性。
- 去噪损失、技能分类损失与技能对比损失的组合能够生成与预期技能对齐的鲁棒运动流。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。