[论文解读] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
本论文提出 Diffusion Policy,一种作为条件去噪扩散过程表达的 visuomotor 策略,并在多种机器人操控任务中展示出强劲的经验提升。它使用 Langevin 动力学的行动-分数梯度学习,并具有滚动时域控制、视觉条件化,以及时间序列扩 diffusion transformer。
This paper introduces Diffusion Policy, a new way of generating robot behavior by representing a robot's visuomotor policy as a conditional denoising diffusion process. We benchmark Diffusion Policy across 12 different tasks from 4 different robot manipulation benchmarks and find that it consistently outperforms existing state-of-the-art robot learning methods with an average improvement of 46.9%. Diffusion Policy learns the gradient of the action-distribution score function and iteratively optimizes with respect to this gradient field during inference via a series of stochastic Langevin dynamics steps. We find that the diffusion formulation yields powerful advantages when used for robot policies, including gracefully handling multimodal action distributions, being suitable for high-dimensional action spaces, and exhibiting impressive training stability. To fully unlock the potential of diffusion models for visuomotor policy learning on physical robots, this paper presents a set of key technical contributions including the incorporation of receding horizon control, visual conditioning, and the time-series diffusion transformer. We hope this work will help motivate a new generation of policy learning techniques that are able to leverage the powerful generative modeling capabilities of diffusion models. Code, data, and training details is publicly available diffusion-policy.cs.columbia.edu
研究动机与目标
- 激发学习鲁棒的 visuomotor 策略,能够建模多模态且高维的动作分布。
- 开发基于扩散的策略,在视觉观测条件下输出高维动作序列。
- 通过滚动时域规划、视觉条件化和时间序列扩散变换器等技术,提升真实世界的机器人控制。
- 在多个基准上展示持续优于现有方法基线的性能提升。
提出的方法
- 将 visuomotor 策略表示为对动作的条件去噪扩散过程。
- 学习动作分布分数函数的梯度,并在推断阶段执行随机 Langevin 动力学。
- 将扩散条件化在视觉观测上以建模 p(A|O),并使用 K 次去噪步骤预测动作序列。
- 整合滚动时域控制以在闭环重新规划下生成动作序列。
- 使用时间序列扩散变换器以减轻过平滑并处理高频动作变化。
- 使用 CNN 或 transformer backbone、FiLM 条件化,以及用于更快推断的 DDIM 进行评估。
实验结果
研究问题
- RQ1基于扩散的策略是否能够在 visuomotor 控制任务中表达多模态的动作分布?
- RQ2在为真实世界机器人操作学习高维动作序列时,扩散策略是否提高鲁棒性和稳定性?
- RQ3哪些架构选择(CNN 与 Transformer)以及哪些条件化策略最能支持基于扩散的 visuomotor 学习?
- RQ4在真实时间执行中,扩散策略在带延迟和滚动时域控制下的表现如何?
- RQ5视觉条件化是否在实时 visuomotor 推断中有效且计算效率高?
主要发现
- Diffusion Policy 在来自 4 个基准的 12 个任务上始终优于最先进基线,平均提升为 46.9%。
- 该方法通过行动分数梯度和 Langevin 采样表达多模态动作分布,解决多模态性和时间一致性的问题。
- 在这些任务中,位置控制动作空间比速度控制动作空间为扩散策略带来更好性能。
- 使用扩散模型进行动作序列预测可提升时序一致性,并对空行动作和长时域规划具有鲁棒性。
- 滚动时域控制设置和时间序列扩散变换器实现了实时推断和高频动作变化,且训练稳定。
- 相较于隐式能量模型及其他基线,基于扩散的策略在训练稳定性方面更高,减少了超参数敏感性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。