[논문 리뷰] Diffusion Alignment Beyond KL: Variance Minimisation as Effective Policy Optimiser
VMPO는 diffusion alignment를 log importance weights의 분산 최소화로 재구성하며, KL 기반 방법과의 연결을 제공하는 동시에 새로운 설계 방향을 가능하게 한다; Stable Diffusion에서 보상 기반 정렬을 경험적으로 개선한다.
Diffusion alignment adapts pretrained diffusion models to sample from reward-tilted distributions along the denoising trajectory. This process naturally admits a Sequential Monte Carlo (SMC) interpretation, where the denoising model acts as a proposal and reward guidance induces importance weights. Motivated by this view, we introduce Variance Minimisation Policy Optimisation (VMPO), which formulates diffusion alignment as minimising the variance of log importance weights rather than directly optimising a Kullback-Leibler (KL) based objective. We prove that the variance objective is minimised by the reward-tilted target distribution and that, under on-policy sampling, its gradient coincides with that of standard KL-based alignment. This perspective offers a common lens for understanding diffusion alignment. Under different choices of potential functions and variance minimisation strategies, VMPO recovers various existing methods, while also suggesting new design directions beyond KL.
연구 동기 및 목표
- 사전 학습된 확산 모델을 높은 보상 샘플 쪽으로 이끌기 위한 diffusion alignment를 제안한다.
- KL 기반 목표의 대안으로 Variance Minimisation Policy Optimisation (VMPO)를 도입한다.
- on-policy 샘플링하에서 분산 최소화가 KL과 동일한 기울기를 산출한다는 것을 보인다.
- 특정 선택 아래 VMPO가 기존 방법을 회복시키고 새로운 설계 방향을 가능하게 한다는 것을 시연한다.
- 다양한 보상에 걸쳐 Stable Diffusion 1.5와 3.5를 미세조정하여 VMPO를 실험적으로 검증한다.
제안 방법
- 잡음 제거 과정을 Sequential Monte Carlo 관점에서 순차 제안으로 다룬다.
- VMPO 목표를 궤적(Eq. 4)에서의 log 중요 가중치의 분산을 최소화하는 것으로 정의한다.
- 최적해가 보상 편향된 타깃을 산출하고 on-policy 기울기가 KL 기반 정렬과 일치함을 보인다(제안 1).
- Monte Carlo 샘플을 통해 VMPO 손실을 추정하고 로그 가중치 기댓값을 분산 시키기 위한 신경망 추정기 M_phi를 도입한다(Eq. 8–9).
- 훈련 절차를 도출하고 서로 다른 보상 포텐셜을 통해 두 가지 변형 VMPO-R2G와 VMPO-Diff를 구현한다(Appendix C).
- 특정 분산 전략 하에서 VMPO가 GRPO 및 다른 확산 정렬 방법들과 특수한 경우로 연결된다는 것을 보인다(Appendix C).
실험 결과
연구 질문
- RQ1KL 최소화 너머로 diffusion alignment를 어떻게 공식화할 수 있는가?
- RQ2on-policy 샘플링하에서 분산 최소화가 KL과 같은 기울기를 산출하는가, 그리고 실용적 이점은 무엇인가?
- RQ3다른 포텐셜 함수와 분산 전략이 기존의 확산 정렬 방법들과 어떤 관련이 있는가?
- RQ4VMPO가 실제 보상 신호에서 확산 모델을 재조정할 때 보상 주도 정렬을 개선할 수 있는가?
주요 결과
| 방법 | HPSv2 | CLIPScore | ImageReward | DreamSim |
|---|---|---|---|---|
| SD1.5 (Base) | 0.2368 ± 0.0029 | 0.2717 ± 0.0032 | 0.0331 ± 0.0779 | 0.4389 ± 0.0116 |
| GRPO | 0.2684 ± 0.0035 | 0.2653 ± 0.0034 | 0.3449 ± 0.0758 | 0.3220 ± 0.0098 |
| VMPO-R2G | 0.2723 ± 0.0032 | 0.2713 ± 0.0030 | 0.3427 ± 0.0762 | 0.3673 ± 0.0115 |
| VMPO-Diff | 0.2822 ± 0.0040 | 0.2622 ± 0.0028 | 0.4973 ± 0.0780 | 0.2916 ± 0.0104 |
- VMPO는 denoising 궤도를 따라 로그 중요 가중치의 분산을 최소화하여 확산 정렬을 최적화한다.
- on-policy 샘플링하에서 VMPO 기울기는 KL 기반 정렬의 기울기와 일치한다.
- 다양한 분산 전략을 갖춘 VMPO는 기존 방법을 회복시키고 KL를 넘어선 새로운 설계 방향을 제시한다.
- 실험적으로 VMPO는 Stable Diffusion 1.5에서 인간 선호 기반 정렬(HPSv2)과 ImageReward를 향상시키며, VMPO-Diff가 가장 강한 보상 신호를 달성한다.
- VMPO-Diff는 보상을 증가시키지만 CLIPScore와 DreamSim에서 트레이드오프를 유발하여 다른 방법들과 유사한 보상 해킹 경향을 시사한다.
- 이 논문은 확산 정렬과 그 변형을 이해하기 위한 통일된 확률적 시각(SMC)을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.