QUICK REVIEW

[논문 리뷰] Planning with Diffusion for Flexible Behavior Synthesis

Michael Jänner, Yilun Du|arXiv (Cornell University)|2022. 05. 20.

Reinforcement Learning in Robotics인용 수 60

한 줄 요약

이 논문은 Diffuser를 소개합니다. Diffuser는 전체 궤적을 점진적으로 노이즈 제거하여 계획하는 확산 기반 모델로, 기존의 자기회귀 동적 모델에 의존하지 않고 장기 시퀀스 계획, 작업 합성성, 테스트 시점의 유연성을 가능하게 합니다.

ABSTRACT

Model-based reinforcement learning methods often use learning only for the purpose of estimating an approximate dynamics model, offloading the rest of the decision-making work to classical trajectory optimizers. While conceptually simple, this combination has a number of empirical shortcomings, suggesting that learned models may not be well-suited to standard trajectory optimization. In this paper, we consider what it would look like to fold as much of the trajectory optimization pipeline as possible into the modeling problem, such that sampling from the model and planning with it become nearly identical. The core of our technical approach lies in a diffusion probabilistic model that plans by iteratively denoising trajectories. We show how classifier-guided sampling and image inpainting can be reinterpreted as coherent planning strategies, explore the unusual and useful properties of diffusion-based planning methods, and demonstrate the effectiveness of our framework in control settings that emphasize long-horizon decision-making and test-time flexibility.

연구 동기 및 목표

학습과 계획의 더욱 긴밀한 통합을 달성하기 위해 본질적으로 계획 친화적인 모델을 설계한다.
계획을 위한 모든 타임스텝을 비자기회귀적으로 예측하도록 궤적 확산 모델을 개발한다.
확산 샘플링 중에 보상, 제약 등의 가이던스 함수를 통해 계획의 유연한 조건화를 가능하게 한다.
오프라인 및 온라인 작업 전반에 걸쳐 장기 시점 계획, 새로운 목표에 대한 일반화, 테스트 시점의 유연성을 시연한다.

제안 방법

Diffuser를 소개한다. 이는 궤적 차원에서의 확률적 모델로, 타임스텝 전체에서 궤적을 병렬로 denoise 한다.
궤적을 상태와 행동의 2D 배열로 표현하고, 지역적 시간적 현지성을 가능하게 하는 시간적 합성 블록을 사용한다.
노이즈 타깃에 대한 간단한 L2 목적함수를 사용하여 denoising 스텝 epsilon_theta를 예측하도록 모델을 학습한다.
샘플링을 고보상 또는 제약 충족 궤적 쪽으로 편향시키는 perturbation 함수 h(tau)를 사용한다(추론으로서의 계획).
강화학습에서 누적 보상 J(mu)의 그래디언트를 도출하여 확산 샘플링을 안내한다(분류기-가이드 샘플링의 유사체).
제약 충족을 관찰된 궤적의 일부를 조건부로 처리하는 인페인팅 방식으로 다룰 수 있다(시작 상태, 목표, 제약 등).

실험 결과

연구 질문

RQ1비자기회귀 확산 모델이 제어 작업의 장기 궤적을 안정적으로 계획할 수 있는가?
RQ2확산 기반 계획이 retraining 없이 새로운 목표와 보상 구조에 일반화되는가?
RQ3조건화/지시된 샘플링(보상 또는 제약)이 계획의 품질과 실행 가능성에 어떤 영향을 미치는가?
RQ4새로운 목표를 향한 계획을 이끌기 위해 섞은 perturbations를 조합해 테스트 시점의 유연성을 달성할 수 있는가?

주요 결과

환경	MPPI	CQL	IQL	Diffuser
Maze2D U-Maze	33.2	5.7	47.4	113.9 ± 3.1
Maze2D Medium	10.2	5.0	34.9	121.5 ± 2.7
Maze2D Large	5.1	12.5	58.6	123.0 ± 6.4
Single-task Average	16.2	7.7	47.0	119.5
Multi2D U-Maze	41.2	-	24.8	128.9 ± 1.8
Multi2D Medium	15.4	-	12.1	127.2 ± 3.4
Multi2D Large	8.0	-	13.9	132.1 ± 5.8
Multi-task Average	21.5	-	16.9	129.4

Diffuser는 희박 보상 환경에서의 장기 계획을 가능하게 하며 Maze2D 태스크에서 모델 프리-baselines를 능가한다.
모델은 시간적 합성성을 보이며 부분 시퀀스를 이어 붙여 새로운 계획을 형성할 수 있다.
계획의 horizon은 입력 노이즈에 의해 결정되며 아키텍처가 아니라 계획 길이를 결정한다.
Diffuser는 작업 합성을 지원하며 새로운 보상 함수로도 모델 재학습 없이 계획을 유도할 수 있다.
오프라인 RL 벤치마크에서 Diffuser는 경쟁력 있는 성과를 보이며 이질적 데이터에서 효과적인 컨트롤러를 회복할 수 있다.
가이드 샘플링과 인페인팅은 목표 조건화 및 제약 충족 계획 동작을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.