[論文レビュー] Diffusion Alignment Beyond KL: Variance Minimisation as Effective Policy Optimiser
VMPOは拡散整列を対数重要度重みの分散最小化として再定式化し、KLベースの方法と連携しつつ新しい設計方向を可能にする。実証的にはStable Diffusionにおける報酬ベースの整列を改善する。
Diffusion alignment adapts pretrained diffusion models to sample from reward-tilted distributions along the denoising trajectory. This process naturally admits a Sequential Monte Carlo (SMC) interpretation, where the denoising model acts as a proposal and reward guidance induces importance weights. Motivated by this view, we introduce Variance Minimisation Policy Optimisation (VMPO), which formulates diffusion alignment as minimising the variance of log importance weights rather than directly optimising a Kullback-Leibler (KL) based objective. We prove that the variance objective is minimised by the reward-tilted target distribution and that, under on-policy sampling, its gradient coincides with that of standard KL-based alignment. This perspective offers a common lens for understanding diffusion alignment. Under different choices of potential functions and variance minimisation strategies, VMPO recovers various existing methods, while also suggesting new design directions beyond KL.
研究の動機と目的
- 事前学習済み拡散モデルを高報酬サンプルへと導くよう拡散整列を促す。
- KLベースの目的に代わる選択肢として Variance Minimisation Policy Optimisation (VMPO) を導入する。
- オンポリシーサンプリングの下で分散最小化が同じ勾配を生み出すことを示す。
- 特定の選択の下でVMPOが既存手法を回収し、新しい設計方向を可能にすることを示す。
- VMPOを実証的に検証するため、Stable Diffusion 1.5 と 3.5 を多様な報酬でファインチューニングする。
提案手法
- デノイジング過程をSequential Monte Carloビューにおける逐次提案として扱う。
- VMPO目的を、軌道に沿った対数重要度重みの分散を最小化することとして定義する(式 (Eq. 4))。
- 最適解が報酬傾斜付きターゲットを生み出すこと、オンポリシー勾配がKLベースの整列と一致することを示す(命題 1)。
- モンテカルロサンプルを用いてVMPO損失を推定し、ニューラル推定器 M_phi を導入して対数重みの期待値をアモチゼーションする(式 (Eq. 8–9))。
- トレーニング手順を導出し、報酬ポテンシャルの異なる組み合わせにより VMPO-R2G と VMPO-Diff の二つのバリアントを具体化する(付録 C)。
- VMPOが特定の分散戦略の下でGRPOや他の拡散整列法と特殊ケースとして結びつくことを示す(付録 C)。
実験結果
リサーチクエスチョン
- RQ1KL最小化を超える拡散整列の定式化は可能か。
- RQ2オンポリシーサンプリングの下で分散最小化はKLと同等の勾配を生み出すのか、実務的な利点は何か。
- RQ3異なるポテンシャル関数と分散戦略は既存の拡散整列法とどう関連するか。
- RQ4VMPOは実際の報酬信号でファインチューニングする際、報酬駆動型整列を改善できるか。
主な発見
| Method | HPSv2 | CLIPScore | ImageReward | DreamSim |
|---|---|---|---|---|
| SD1.5 (Base) | 0.2368 ± 0.0029 | 0.2717 ± 0.0032 | 0.0331 ± 0.0779 | 0.4389 ± 0.0116 |
| GRPO | 0.2684 ± 0.0035 | 0.2653 ± 0.0034 | 0.3449 ± 0.0758 | 0.3220 ± 0.0098 |
| VMPO-R2G | 0.2723 ± 0.0032 | 0.2713 ± 0.0030 | 0.3427 ± 0.0762 | 0.3673 ± 0.0115 |
| VMPO-Diff | 0.2822 ± 0.0040 | 0.2622 ± 0.0028 | 0.4973 ± 0.0780 | 0.2916 ± 0.0104 |
- VMPOはデノイジング軌道に沿った対数重要度重みの分散を最小化することにより拡散整列を最適化する。
- オンポリシーサンプリングの下で、VMPOの勾配はKLベースの整列の勾配と一致する。
- 分散戦略を変えるとVMPOは既存手法を回収し、KLを超えた新しい設計方向を示唆する。
- 実証的には、VMPOはStable Diffusion 1.5 で人間嗜好ベースの整列(HPSv2)と ImageReward を改善し、VMPO-Diff が最も強い報酬信号を達成する。
- VMPO-Diffは報酬を高める一方で CLIPScore と DreamSim にトレードオフを生じさせ、他の手法と同様の報酬ハック傾向を示す。
- 本論文は拡散整列とその派生を理解するための統合的な確率的視点(SMC)を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。