[論文レビュー] Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive
本論文は Direct Preference Optimisation (DPO) の失敗モードを特定し、近接編集された好みペアを用いた微調整で好ましい完了の発生確率が低下する可能性を示し、これを緩和する DPO-Positive (DPOP) を提案する。DPOP を用いた微調整により、オープンソースの Smaug LLM がオープンモデルの中で最先端の性能を達成する。
Direct Preference Optimisation (DPO) is effective at significantly improving the performance of large language models (LLMs) on downstream tasks such as reasoning, summarisation, and alignment. Using pairs of preferred and dispreferred data, DPO models the relative probability of picking one response over another. In this work, first we show theoretically that the standard DPO loss can lead to a reduction of the model's likelihood of the preferred examples, as long as the relative probability between the preferred and dispreferred classes increases. We then show empirically that this phenomenon occurs when fine-tuning LLMs on common datasets, especially datasets in which the edit distance between pairs of completions is low. Using these insights, we design DPO-Positive (DPOP), a new loss function and training procedure which avoids this failure mode. Surprisingly, we find that DPOP outperforms DPO and other fine-tuning procedures across a wide variety of datasets and downstream tasks, including datasets with high edit distances between completions. Furthermore, we find that the DPOP-tuned model outperforms the DPO-tuned model (all else equal) on benchmarks independent of the fine-tuning data, such as MT-Bench. Finally, using DPOP, we create and open-source Smaug-34B and Smaug-72B, with the latter becoming the first open-source LLM to surpass an average accuracy of 80% on the HuggingFace Open LLM Leaderboard.
研究の動機と目的
- Direct Preference Optimisation (DPO) の微調整において、近接編集された好みペアを用いた場合に生じる失敗モードを説明・特徴づける。
- 好ましい完了の劣化を緩和する損失関数である DPO-Positive (DPOP) を提案・検証する。
- 新しい対になった好みデータセット上で DPOP を用いて訓練した新しいオープンソース LLM(Smaug-7B、Smaug-34B、Smaug-72B)を作成・公開する。
- Smaug モデルを標準的なオープン指標(HuggingFace Open LLM Leaderboard、MT-Bench)で評価し、オープンモデル間での最先端性能を確立する。
提案手法
- DPO 損失を理論的に解析し、好ましい完了の確率が低下する条件を示す。
- 好ましい対数尤度を保持するために DPO 損失にペナルティ項を加えて DPO-Positive (DPOP) を導入する。
- DPOP の勾配挙動を導出し、好ましい完了へ向けてトークンを奨励することを示す。
- ARC、HellaSwag、MetaMath を基にした新しい対となる好みデータセットを作成し、DPOP 学習を適用する。
- 新しいデータセットを用いて DPOP で Smaug-7B、Smaug-34B、Smaug-72B を微調整し、標準ベンチマークでの評価を報告する。
実験結果
リサーチクエスチョン
- RQ1編集距離が小さい場合に標準の DPO が好ましい完了の対数尤度を低下させることがあるか?
- RQ2修正された損失(DPOP)で、DPO の枠組みを維持しつつ好ましい完了の劣化を防げるか?
- RQ3DPOP で訓練されたオープンソースの Smaug モデルは、人気のベンチマークで DPO ベースラインを上回るか?
- RQ4完了間の編集距離が異なるデータセット(低い vs 高い)における DPOP の性能はどうか?
主な発見
- DPO は、完了間の編集距離が小さい好みペアで性能を壊滅的に低下させる可能性がある。
- DPOP はこの失敗モードを緩和し、高い編集距離のデータセットでもしばしば DPO より上回る。
- Smaug-72B は HuggingFace Open LLM Leaderboard で平均精度 80.48% を達成し、80% を超えた最初のオープンソースモデルである。
- Smaug-34B は同サイズクラスのモデルの中でリーダーボード最高の性能を達成。
- DPOP は ARC、HellaSwag、MetaMath データセット全般で DPO を上回るとともに MT-Bench と MMLU ベンチマークでも優位性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。