[논문 리뷰] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
이 논문은 Diffusion Policy를 조건부 노이즈 제거 확산 프로세스로 표현한 시각운동 정책을 소개하고, 다양한 로봇 조작 작업에서 강력한 실증적 이득을 보여줍니다. 또한 Langevin dynamics를 이용한 액션-스코어 그래디언트 학습과 재한계-지평선 제어, 시각적 조건화, 시계열 확산 트랜스포머를 특징으로 합니다.
This paper introduces Diffusion Policy, a new way of generating robot behavior by representing a robot's visuomotor policy as a conditional denoising diffusion process. We benchmark Diffusion Policy across 12 different tasks from 4 different robot manipulation benchmarks and find that it consistently outperforms existing state-of-the-art robot learning methods with an average improvement of 46.9%. Diffusion Policy learns the gradient of the action-distribution score function and iteratively optimizes with respect to this gradient field during inference via a series of stochastic Langevin dynamics steps. We find that the diffusion formulation yields powerful advantages when used for robot policies, including gracefully handling multimodal action distributions, being suitable for high-dimensional action spaces, and exhibiting impressive training stability. To fully unlock the potential of diffusion models for visuomotor policy learning on physical robots, this paper presents a set of key technical contributions including the incorporation of receding horizon control, visual conditioning, and the time-series diffusion transformer. We hope this work will help motivate a new generation of policy learning techniques that are able to leverage the powerful generative modeling capabilities of diffusion models. Code, data, and training details is publicly available diffusion-policy.cs.columbia.edu
연구 동기 및 목표
- robust visuomotor 정책을 학습하여 다중 모달 및 고차원 액션 분포를 모델링할 수 있도록 동기를 부여한다.
- 시각 관측에 조건부로 고차원 액션 시퀀스를 출력하는 확산 기반 정책을 개발한다.
- 재계약-지평선 계획, 시각적 조건화, 시계열 확산 트랜스포머와 같은 기술을 통해 실세계 로봇 제어를 향상시킨다.
- 다중 벤치마크에서 최첨단 기준선 대비 일관된 성능 개선을 보여준다.
제안 방법
- 액션에 대한 조건부 노이즈 제거 확산 프로세스 간섭으로 시각운동 정책을 표현한다.
- 추정 시 액션 분포 점수 함수의 그래디언트를 학습하고 추론 중에 Stochastic Langevin Dynamics를 수행한다.
- diffusion을 시각 관측으로 조건화하여 p(A|O)를 모델링하고 K-denoising 단계로 액션 시퀀스를 예측한다.
- 닫힌 루프 재계획을 통해 액션 시퀀스를 생성하는 재계약-지평선 제어를 통합한다.
- 과도한 평활화를 완화하고 고주파 액션 변화를 처리하기 위해 시계열 확산 트랜스포머를 사용한다.
- CNN 또는 트랜스포머 백본, FiLM 조건화, DDIM을 사용하여 더 빠른 추론을 평가한다.
실험 결과
연구 질문
- RQ1확산 기반 정책이 시각운동 제어 과제에서 다중 모달 액션 분포를 표현할 수 있는가?
- RQ2확산 정책이 고차원 액션 시퀀스 학습 시 강건성 및 안정성을 개선하는가?
- RQ3어떤 아키텍처 선택(CNN vs Transformer)과 조건화 전략이 확산 기반 시각운동 학습을 가장 잘 지원하는가?
- RQ4확산 정책은 대기 시간(latency)과 실시간 실행에서 재계약-지평선 제어 하에서 어떻게 작동하는가?
- RQ5시각적 조건화가 실시간 시각운동 추론에서 효과적이고 계산적으로 효율적인가?
주요 결과
- Diffusion Policy는 4개의 벤치마크에서 12개 작업에 대해 최첨단 기준선보다 일관되게 우수하며 평균 46.9%의 개선을 달성한다.
- 액션-스코어 그래디언트와 Langevin 샘플링을 통해 다중 모달성과 시간적 일관성을 다루며 다중 모달 액션 분포를 표현할 수 있다.
- 위치 제어 액션 공간이 이들 작업에서 확산 정책의 성능을 속도 제어 공간보다 더 좋게 만든다.
- 확산 모델을 이용한 액션 시퀀스 예측은 시간적 일관성과 무한 대기 액션 및 장기 계획에 대한 강인성을 향상시킨다.
- 재계약-지평선 제어 설정과 시계열 확산 트랜스포머는 실시간 추론과 고주파 액션 변화가 가능하도록 하며 학습은 안정적이다.
- 확산 기반 정책의 학습 안정성은 암시적 에너지 기반 모델 및 다른 기준선에 비해 더 높아 하이퍼파라미터 민감도가 감소한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.