[論文レビュー] ORPO: Monolithic Preference Optimization without Reference Model
ORPO は参照なしのモノリシックなオッズ比ベースの好み最適化手法を導入し、RLHF や 参照モデルを必要とせずに整合性のファインチューニングを改善し、複数のモデルとデータセットにおいて強力な指示遵守性能を達成する。
While recent preference alignment algorithms for language models have demonstrated promising results, supervised fine-tuning (SFT) remains imperative for achieving successful convergence. In this paper, we study the crucial role of SFT within the context of preference alignment, emphasizing that a minor penalty for the disfavored generation style is sufficient for preference-aligned SFT. Building on this foundation, we introduce a straightforward and innovative reference model-free monolithic odds ratio preference optimization algorithm, ORPO, eliminating the necessity for an additional preference alignment phase. We demonstrate, both empirically and theoretically, that the odds ratio is a sensible choice for contrasting favored and disfavored styles during SFT across the diverse sizes from 125M to 7B. Specifically, fine-tuning Phi-2 (2.7B), Llama-2 (7B), and Mistral (7B) with ORPO on the UltraFeedback alone surpasses the performance of state-of-the-art language models with more than 7B and 13B parameters: achieving up to 12.20% on $\text{AlpacaEval}_{2.0}$ (Figure 1), 66.19% on IFEval (instruction-level loose, Table 6), and 7.32 in MT-Bench (Figure 12). We release code and model checkpoints for Mistral-ORPO-$α$ (7B) and Mistral-ORPO-$β$ (7B).
研究の動機と目的
- 監督付きファインチューニング(SFT)が好みの整合性に果たす役割を調査する。
- 参照モデルなしのモノリシックな整合化手法(ORPO)を提案する。
- 125M から 7B までのさまざまなモデルサイズでの ORPO の有効性を標準ベンチマークで示す。
- さまざまなタスクで ORPO を RLHF、DPO、SFT のベースラインと比較する。
提案手法
- オッズ比ベースのペナルティを負の対数尤度損失に追加して定義する。
- L_SFT と相対比ロス L_OR を組み合わせて L_ORPO を形成する。
- 最適化を安定化させるため log odds ratio の log-sigmoid を使用する。
- Phi-2、Llama-2、Mistral のモデルで HH-RLHF および UltraFeedback のデータセットを評価する。
- モデルスケール全体で SFT、PPO、DPO と比較する。
実験結果
リサーチクエスチョン
- RQ1SFT のみでシンプルなペナルティ項だけで好みの整合性を十分に得られるか。
- RQ2参照モデルなしのオッズ比目的関数は複数のモデルサイズで整合性の性能を改善するのか。
- RQ3標準ベンチマークでの勝率と報酬分布の点で ORPO は RLHF および DPO とどう比べるのか。
- RQ4ORPO が指示遵守能力やマルチターンタスクに与える影響は。
- RQ5参照ベースの方法と比較して ORPO はより計算効率が高いのか。
主な発見
- ORPO は強力な指示遵守性能を達成し、AlpacaEval 2.0 および MT-Bench で 7B+ の最先端モデルのいくつかを上回る。
- Mistral-ORPO-α および Mistral-ORPO-β(7B)は AlpacaEval2.0 で 11.33%、12.20%、および MT-Bench で 7.23、7.32 を達成。
- ORPO は HH-RLHF のすべてのテスト済みモデルスケールで SFT および PPO を上回り、SFT に対する勝率が最大 78.0%、PPO に対しては 79.4% に達する。
- UltraFeedback では ORPO が SFT に対する勝率は最大 80.5%、PPO に対しては 85.8% を示し、より大きなモデルでは DPO との比較が強い。
- ORPO は参照モデルを必要とせず、RLHF/DPO に比べてフォワードパス数と計算コストを削減する。
- 報酬分布は、テスト設定において RLHF および DPO と比較して ORPO の期待報酬が高いことを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。