[論文レビュー] DeDPO: Debiased Direct Preference Optimization for Diffusion Models
DeDPOは偏りのない推定量をDirect Preference Optimizationに統合し、少数の人間の嗜好と多量の合成嗜好を用いて学習することで、拡散モデルのアラインメントにおいて完全に人間がラベル付けしたベースラインと同等以上を達成する。
Direct Preference Optimization (DPO) has emerged as a predominant alignment method for diffusion models, facilitating off-policy training without explicit reward modeling. However, its reliance on large-scale, high-quality human preference labels presents a severe cost and scalability bottleneck. To overcome this, We propose a semi-supervised framework augmenting limited human data with a large corpus of unlabeled pairs annotated via cost-effective synthetic AI feedback. Our paper introduces Debiased DPO (DeDPO), which uniquely integrates a debiased estimation technique from causal inference into the DPO objective. By explicitly identifying and correcting the systematic bias and noise inherent in synthetic annotators, DeDPO ensures robust learning from imperfect feedback sources, including self-training and Vision-Language Models (VLMs). Experiments demonstrate that DeDPO is robust to the variations in synthetic labeling methods, achieving performance that matches and occasionally exceeds the theoretical upper bound of models trained on fully human-labeled data. This establishes DeDPO as a scalable solution for human-AI alignment using inexpensive synthetic supervision.
研究の動機と目的
- limited human feedbackでのテキスト⇄画像拡散モデルのスケーラブルなアラインメントの必要性を動機づける。
- 小さなラベル付きデータを、合成AIフィードバックで注釈付けされた大量の未ラベルデータで補う半教師付きフレームワークを提案する。
- DeDPOを導入し、合成ラベルから生じるバイアスを修正するDPOに偏りを取り除く推定量を組み込む。
- DeDPOが異なる合成ラベリングソースおよびデータレジームに対して頑健であることを実証する。
提案手法
- DPOを対の画像嗜好の二値分類損失として再表現する。
- DeDPO損失: L_DeDPO = E_{n_l+n_u} L(G_theta(y), G_hat(y)) + E_{n_l}(L(G_theta(y_l), z_l) - L(G_theta(y_l), G_hat(y_l))).
- 無偏性を証明: E[L_DeDPO] = E[L_DPO]、G_hatの精度に関係なく成立。
- デバイアンス解釈を提供: ラベルなしデータは擬似ラベルを用い、ラベル付きデータには地真のラベルに向かう補正を増幅して適用。
- 合成嗜好の生成を自己学習(G_hat = G_theta_hat)と事前学習済み Vision-Language Models(例: Qwen)で説明。
- 収束性を分析: 緩やかな条件下で、学習されたthetaは速度 O(1/(n_l+n_u)) と(||G_hat - G*||_4)^4に依存する項を伴って収束することを示し、ゆっくりと収束する合成学習器に対する頑健性を示す。

実験結果
リサーチクエスチョン
- RQ1DeDPOは限られた人間のラベルと豊富な合成嗜好の混在を用いて競合的または優れたアラインメントを達成できるか?
- RQ2提案された偏りのない損失はノイズのある、または不完全な合成注釈に対して無偏かつ頑健か?
- RQ3自己学習、CLIP、Qwenなどの異なる合成注釈者はDeDPO下でアラインメントにどのような影響を与えるか?
- RQ4合成嗜好モデルがゆっくり収束する場合の収束特性は?
- RQ5ラベル付き/未ラベルデータのスケーリングが拡散モデルのアラインメント性能にどう影響するか?
主な発見
| Training set | Model | Method | # Pref. pairs | # Unpref. pairs | PS (↑) | HPSv2 Avg (↑) | AS (↑) |
|---|---|---|---|---|---|---|---|
| FiFA-5K | SD1.5 | SFT | 1250 | 0 | 21.64 | 27.62 | 5.43 |
| FiFA-5K | SD1.5 | DPO [57] + 25% | 1250 | 0 | 21.76 | 27.76 | 5.38 |
| FiFA-5K | SD1.5 | DPO [57] + 100% | 5000 | 0 | 21.88 | 27.79 | 5.38 |
| FiFA-5K | SD1.5 | DPO [57] + synthetic pref. | 1250 | 3750 | 21.71 | 27.39 | 5.33 |
| FiFA-5K | SD1.5 | DeDPO + synthetic pref. | 1250 | 3750 | 21.91 | 27.80 | 5.43 |
| FiFA-5K | SDXL | SFT | 1250 | 0 | 22.01 | 27.87 | 5.60 |
| FiFA-5K | SDXL | DPO [57] + 25% | 1250 | 0 | 22.57 | 28.34 | 5.66 |
| FiFA-5K | SDXL | DPO [57] + 100% | 5000 | 0 | 22.84 | 28.76 | 5.77 |
| FiFA-5K | SDXL | DPO [57] + synthetic pref. | 1250 | 3750 | 22.61 | 28.71 | 5.66 |
| FiFA-5K | SDXL | DeDPO + synthetic pref. | 1250 | 3750 | 22.83 | 28.76 | 5.77 |
| HPDv2 | SD1.5 | SFT | 1250 | 0 | 21.48 | 26.94 | 5.26 |
| HPDv2 | SD1.5 | DPO [57] + 25% | 1250 | 0 | 21.61 | 27.63 | 5.38 |
| HPDv2 | SD1.5 | DPO [57] + 100% | 5000 | 0 | 21.61 | 27.60 | 5.38 |
| HPDv2 | SD1.5 | DeDPO + synthetic pref. | 1250 | 3750 | 21.66 | 27.70 | 5.40 |
| HPDv2 | SDXL | SFT | 1250 | 0 | 21.60 | 27.26 | 5.36 |
| HPDv2 | SDXL | DPO [57] + 25% | 1250 | 0 | 22.48 | 28.44 | 5.71 |
| HPDv2 | SDXL | DPO [57] + 100% | 5000 | 0 | 22.53 | 28.45 | 5.71 |
| HPDv2 | SDXL | DPO [57] + synthetic pref. | 1250 | 3750 | 22.52 | 28.53 | 5.71 |
| HPDv2 | SDXL | DeDPO + synthetic pref. | 1250 | 3750 | 22.55 | 28.56 | 5.74 |
- 25%の人間と75%の合成ラベルで、FiFA-5KおよびSD1.5とSDXLの複数のバックボーンにおいて、完全に監視下のDPOと同等以上を達成または上回る。
- FiFA-5K with SD1.5でDeDPOは21.91 PickScoreおよび27.80 HPSv2、完全監視DPOはそれぞれ21.88と27.79に対して、SDXLでは22.83 vs 22.84のPS、28.76 vs 28.76のHPSv2に適合。
- HPDv2ではSD1.5で完全人間ベースラインと同等、SDXLは若干の改善を示し、人間ラベルの4分の1しか用いていないにもかかわらず。
- DeDPOは合成ラベルのみを用いるナイーブな半教師付きDPOを一貫して上回り、ノイズの多いAIフィードバックに対して頑健である。
- 合成ソースの選択は重要で、Qwenベースの嗜好が最良の性能を発揮し、CLIPや自己学習を上回る場面が多い。
- アブレーションはDeDPOが合成ソース間で性能を向上させ、未ラベルデータがスケールしても安定する一方、素朴なDPOは合成ノイズが増えると劣化することを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。