QUICK REVIEW

[논문 리뷰] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

Cheng Chi, Zhenjia Xu|arXiv (Cornell University)|2023. 03. 07.

Reinforcement Learning in Robotics인용 수 13

한 줄 요약

이 논문은 Diffusion Policy를 조건부 노이즈 제거 확산 프로세스로 표현한 시각운동 정책을 소개하고, 다양한 로봇 조작 작업에서 강력한 실증적 이득을 보여줍니다. 또한 Langevin dynamics를 이용한 액션-스코어 그래디언트 학습과 재한계-지평선 제어, 시각적 조건화, 시계열 확산 트랜스포머를 특징으로 합니다.

ABSTRACT

This paper introduces Diffusion Policy, a new way of generating robot behavior by representing a robot's visuomotor policy as a conditional denoising diffusion process. We benchmark Diffusion Policy across 12 different tasks from 4 different robot manipulation benchmarks and find that it consistently outperforms existing state-of-the-art robot learning methods with an average improvement of 46.9%. Diffusion Policy learns the gradient of the action-distribution score function and iteratively optimizes with respect to this gradient field during inference via a series of stochastic Langevin dynamics steps. We find that the diffusion formulation yields powerful advantages when used for robot policies, including gracefully handling multimodal action distributions, being suitable for high-dimensional action spaces, and exhibiting impressive training stability. To fully unlock the potential of diffusion models for visuomotor policy learning on physical robots, this paper presents a set of key technical contributions including the incorporation of receding horizon control, visual conditioning, and the time-series diffusion transformer. We hope this work will help motivate a new generation of policy learning techniques that are able to leverage the powerful generative modeling capabilities of diffusion models. Code, data, and training details is publicly available diffusion-policy.cs.columbia.edu

연구 동기 및 목표

robust visuomotor 정책을 학습하여 다중 모달 및 고차원 액션 분포를 모델링할 수 있도록 동기를 부여한다.
시각 관측에 조건부로 고차원 액션 시퀀스를 출력하는 확산 기반 정책을 개발한다.
재계약-지평선 계획, 시각적 조건화, 시계열 확산 트랜스포머와 같은 기술을 통해 실세계 로봇 제어를 향상시킨다.
다중 벤치마크에서 최첨단 기준선 대비 일관된 성능 개선을 보여준다.

제안 방법

액션에 대한 조건부 노이즈 제거 확산 프로세스 간섭으로 시각운동 정책을 표현한다.
추정 시 액션 분포 점수 함수의 그래디언트를 학습하고 추론 중에 Stochastic Langevin Dynamics를 수행한다.
diffusion을 시각 관측으로 조건화하여 p(A|O)를 모델링하고 K-denoising 단계로 액션 시퀀스를 예측한다.
닫힌 루프 재계획을 통해 액션 시퀀스를 생성하는 재계약-지평선 제어를 통합한다.
과도한 평활화를 완화하고 고주파 액션 변화를 처리하기 위해 시계열 확산 트랜스포머를 사용한다.
CNN 또는 트랜스포머 백본, FiLM 조건화, DDIM을 사용하여 더 빠른 추론을 평가한다.

실험 결과

연구 질문

RQ1확산 기반 정책이 시각운동 제어 과제에서 다중 모달 액션 분포를 표현할 수 있는가?
RQ2확산 정책이 고차원 액션 시퀀스 학습 시 강건성 및 안정성을 개선하는가?
RQ3어떤 아키텍처 선택(CNN vs Transformer)과 조건화 전략이 확산 기반 시각운동 학습을 가장 잘 지원하는가?
RQ4확산 정책은 대기 시간(latency)과 실시간 실행에서 재계약-지평선 제어 하에서 어떻게 작동하는가?
RQ5시각적 조건화가 실시간 시각운동 추론에서 효과적이고 계산적으로 효율적인가?

주요 결과

Diffusion Policy는 4개의 벤치마크에서 12개 작업에 대해 최첨단 기준선보다 일관되게 우수하며 평균 46.9%의 개선을 달성한다.
액션-스코어 그래디언트와 Langevin 샘플링을 통해 다중 모달성과 시간적 일관성을 다루며 다중 모달 액션 분포를 표현할 수 있다.
위치 제어 액션 공간이 이들 작업에서 확산 정책의 성능을 속도 제어 공간보다 더 좋게 만든다.
확산 모델을 이용한 액션 시퀀스 예측은 시간적 일관성과 무한 대기 액션 및 장기 계획에 대한 강인성을 향상시킨다.
재계약-지평선 제어 설정과 시계열 확산 트랜스포머는 실시간 추론과 고주파 액션 변화가 가능하도록 하며 학습은 안정적이다.
확산 기반 정책의 학습 안정성은 암시적 에너지 기반 모델 및 다른 기준선에 비해 더 높아 하이퍼파라미터 민감도가 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.