[논문 리뷰] AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
AdaptDiffuser는 보상 주도 확산을 이용하고 판별기 기반 데이터 필터링 루프를 통해 확산 계획자를 자체적으로 진화시키며, 본 데이터에서의 성능을 향상시키고 추가 전문가 데이터 없이도 보지 못한 작업으로 일반화합니다.
Diffusion models have demonstrated their powerful generative capability in many tasks, with great potential to serve as a paradigm for offline reinforcement learning. However, the quality of the diffusion model is limited by the insufficient diversity of training data, which hinders the performance of planning and the generalizability to new tasks. This paper introduces AdaptDiffuser, an evolutionary planning method with diffusion that can self-evolve to improve the diffusion model hence a better planner, not only for seen tasks but can also adapt to unseen tasks. AdaptDiffuser enables the generation of rich synthetic expert data for goal-conditioned tasks using guidance from reward gradients. It then selects high-quality data via a discriminator to finetune the diffusion model, which improves the generalization ability to unseen tasks. Empirical experiments on two benchmark environments and two carefully designed unseen tasks in KUKA industrial robot arm and Maze2D environments demonstrate the effectiveness of AdaptDiffuser. For example, AdaptDiffuser not only outperforms the previous art Diffuser by 20.8% on Maze2D and 7.5% on MuJoCo locomotion, but also adapts better to new tasks, e.g., KUKA pick-and-place, by 27.9% without requiring additional expert data. More visualization results and demo videos could be found on our project page.
연구 동기 및 목표
- 오프라인 RL 데이터의 다양성 제한이 확산 기반 계획자에 미치는 영향을 동기화하고 해결한다.
- 보상 기울기에 guided된 합성 시연을 생성하고 데이터 품질을 판별자 기반 선택 루프(data pool)로 정제하는 자기 진화 확산 프레임워크를 제안한다.
- 추가 전문가 데이터 없이 데이터 기반 미세 조정을 통해 보지 못한 작업에 대한 제로샷 적응을 가능하게 한다.
- Maze2D, MuJoCo 모빌리티, 그리고 KUKA/Maze2D 미지정 작업에서 성능 향상을 시연한다.
제안 방법
- 보상-미래 보상(go-to-go) 또는 작업 제약으로 가이드되는 조건부 확산 프로세스로 계획 수립을 모델링한다(Eq. 7–8).
- 보상 주도 확산으로 합성 시연을 생성하고 데이터 풀을 사용하는 판별자 기반 선택 루프로 데이터 품질을 정제한다.
- 역 동역학 모델을 사용하여 실행 가능한 행동을 복구하고 상태 예측 가능성에 따라 필터링하여 동적 실행 가능성을 보장한다(Eq. 9).
- 고품질 합성 데이터를 사용하여 순방향 확산 모델을 반복적으로 미세 조정하고 더 나은 자기 진화를 위한 μθ 및 Σ를 개선한다(Eq. 10).
- 연속적 보상과 희소 보상을 다루기 위해 작업 제약 및 보조 보상을 포함한 적절한 보상 주도 목적을 정의한다(Eq. 11).
- Maze2D, MuJoCo D4RL 벤치마크, 및 KUKA 피킹/배치 미지정 작업에서 성능 향상 및 제로샷 적응을 입증한다.
실험 결과
연구 질문
- RQ1보상 주도 확산이 오프라인 RL 작업에 대해 다양한 합성 시연을 생성할 수 있는가?
- RQ2판별자 기반 데이터 선택 루프가 확산 모델의 계획 품질과 보지 못한 작업에 대한 강건성을 개선하는가?
- RQ3자체적으로 진화된 확산 계획자가 추가 전문가 데이터 없이도 미지의 목표에 일반화할 수 있는가?
- RQ4AdaptDiffuser가 표준 벤치마크 및 새로운 작업에서 Diffuser 및 기타 오프라인 RL 베이스라인과 비교하여 어떤 성능을 보이는가?
주요 결과
| 환경 | MPPI | CQL | IQL | Diffuser | AdaptDiffuser |
|---|---|---|---|---|---|
| U-Maze | 33.2 | 5.7 | 47.4 | 113.9 | 135.1 ± 5.8 |
| Medium | 10.2 | 5.0 | 34.9 | 121.5 | 129.9 ± 4.6 |
| Large | 5.1 | 12.5 | 58.6 | 123.0 | 167.9 ± 5.0 |
| Average | 16.2 | 7.7 | 47.0 | 119.5 | 144.3 |
- AdaptDiffuser는 Maze2D에서 Diffuser 대비 약 20.8%, MuJoCo 모빌리티에서 7.5%의 성능 향상을 달성했다.
- MuJoCo 실험에서 AdaptDiffuser는 Hopper-Medium 및 Walker2d-Medium에서 특히 Diffuser 및 여러 베이스라인보다 더 높은 평균 수익을 달성했다.
- AdaptDiffuser는 unseen 작업(KUKA 피킹-배치 등)에 대해 제로샷 적응을 보여주고, 보고된 설정에서 Diffuser 대비 평균 약 5–6 포인트의 개선과 상당한 이점을 보였다.
- 시각화에서 AdaptDiffuser가 Diffuser가 실패하거나 충돌을 일으키는 어려운 Maze2D 케이스에서 실행 가능하고 더 부드러운 경로를 생성하는 것을 보여준다.
- Maze2D 및 MuJoCo 벤치마크 전반에 걸쳐 AdaptDiffuser는 일관되게 기본 Diffuser보다 더 우수한 성능을 보여주며 자기 부트스트래핑 및 일반화가 향상됨을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.