QUICK REVIEW

[論文レビュー] SimPO: Simple Preference Optimization with a Reference-Free Reward

Yu Meng, Mengzhou Xia|arXiv (Cornell University)|May 23, 2024

Constraint Satisfaction and Optimization被引用数 8

ひとこと要約

SimPO は、シーケンスの平均対数確率に基づくシンプルで参照なしの報酬を提案し、ターゲットマージンを追加し、複数の公開ベンチマークとモデルファミリに渡って一貫して DPO を上回る。

ABSTRACT

Direct Preference Optimization (DPO) is a widely used offline preference optimization algorithm that reparameterizes reward functions in reinforcement learning from human feedback (RLHF) to enhance simplicity and training stability. In this work, we propose SimPO, a simpler yet more effective approach. The effectiveness of SimPO is attributed to a key design: using the average log probability of a sequence as the implicit reward. This reward formulation better aligns with model generation and eliminates the need for a reference model, making it more compute and memory efficient. Additionally, we introduce a target reward margin to the Bradley-Terry objective to encourage a larger margin between the winning and losing responses, further improving the algorithm's performance. We compare SimPO to DPO and its latest variants across various state-of-the-art training setups, including both base and instruction-tuned models such as Mistral, Llama 3, and Gemma 2. We evaluate on extensive chat-based evaluation benchmarks, including AlpacaEval 2, MT-Bench, and Arena-Hard. Our results demonstrate that SimPO consistently and significantly outperforms existing approaches without substantially increasing response length. Specifically, SimPO outperforms DPO by up to 6.4 points on AlpacaEval 2 and by up to 7.5 points on Arena-Hard. Our top-performing model, built on Gemma-2-9B-it, achieves a 72.4% length-controlled win rate on AlpacaEval 2, a 59.1% win rate on Arena-Hard, and ranks 1st on Chatbot Arena among <10B models with real user votes.

研究の動機と目的

RLHF パイプラインのより単純な代替としてオフライン嗜好最適化を動機づける。
長さで正規化した平均対数確率を用いて生成指標に整合した報酬を提案する。
勝ちと負けの応答間の分離を改善するためにターゲット報酬マージンを導入する。
標準ベンチマーク上でベースモデルと指示チューニング済みモデルの耐性と性能向上を示す。

提案手法

トレーニングを生成と整合させるため、暗黙的な参照なし報酬 r_SimPO(x,y) = (β/|y|) log π_θ(y|x) を定義する。
Bradley-Terry 目的関数にターゲットマージン γ を組み込み、r(x,y_w) − r(x,y_l) ≥ γ を要求する。
別個の報酬モデルや参照ポリシーなしで、BT ランキング目的を用いてオフラインの嗜好データで訓練する。
ベースモデルおよび指示チューニング済みモデル（Llama3-8B-Instruct, Mistral-7B）とベンチマーク（AlpacaEval 2, Arena-Hard, MT-Bench）を横断して評価する。
SimPO を DPO および他のオフライン手法と比較し、最良の性能のために β (2.0–2.5) および γ (0.5–1.5) を調整する。

実験結果

リサーチクエスチョン

RQ1トレーニング報酬を生成指標（平均対数尤度）と一致させることは、DPO と比較して性能を改善するか？
RQ2参照モデルを除去し、長さで正規化された報酬を使用することの影響は何か？
RQ3ターゲット報酬マージン γ の導入は、報酬の正確性と生成品質にどう影響するか？
RQ4SimPO の利得は、ベースモデルと指示チューニング済みモデル、および複数のベンチマーク全体に一般化するか？

主な発見

SimPO は AlpacaEval 2、Arena-Hard、 MT-Bench のベンチマーク全体で DPO および関連手法を一貫して上回る。
AlpacaEval 2 で SimPO は LC 勝率を最大で 6.4 ポイント、Arena-Hard では強力なベースラインを最大で 7.5 ポイント上回る。
Llama3-8B-Instruct をベースとした上位モデルは AlpacaEval 2 で 44.7%、Arena-Hard で 33.8% の長さ制御勝率を達成し、いくつかの競合を上回る。
長さ正規化は重要である。これを除くと出力が長くなり、反復的になり、報酬の整合性が悪化する。
マージン γ を大きくすると報酬の正確性は改善されるが、設定が高すぎると勝率が低下する可能性があり、報酬の較正と生成品質のトレードオフを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。