QUICK REVIEW

[論文レビュー] Self-Play Preference Optimization for Language Model Alignment

Yue Wu, Zhiqing Sun|arXiv (Cornell University)|May 1, 2024

Natural Language Processing Techniques被引用数 12

ひとこと要約

本論文は Self-Play Preference Optimization (SPPO) を提案する。一般的な好みの確率に基づく二人プレーヤーの定数和ゲームを解くことで言語モデルを整合化するアルゴリズムで、収束保証と最小限の外部監督での強力な経験的成果を示す。

ABSTRACT

Standard reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed Self-Play Preference Optimization (SPPO), utilizes iterative policy updates to provably approximate the Nash equilibrium. Additionally, we propose a new SPPO objective which is both strongly motivated by theory and is simple and effective in practice. In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench, Arena-Hard, and the Open LLM Leaderboard. Starting from a stronger base model Llama-3-8B-Instruct, we are able to achieve a length-controlled win rate of 38.77%. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models. Codes are available at https://github.com/uclaml/SPPO.

研究の動機と目的

Bradley–Terry のようなパラメトリック報酬モデルを制限する人間の好みの非合理性に対処する。
LLM の整合化を二人プレーヤーの定数和ゲームとして定式化し、ナッシュ均衡ポリシーを特定する。
大規模な LLM 微調整に対して収束保証を持つスケーラブルな SPPO アルゴリズムを開発する。
限られたデータと小さな好みモデルを用いて、強力なベースラインに対して SPPO の有効性を示す。

提案手法

RLHF を定数和の二人プレーヤーゲームとして定式化し von Neumann 勝者（ナッシュ均衡）を目指す。
ポリシーを逐次更新するオンライン適応型乗法重み法の枠組みを採用する（式 4.1）。
指数更新を、サンプルデータ上の平方和損失を最小化することで近似する（式 4.4/4.5）。
現在のポリシーで生成され、好みモデルによって注釈された小規模な合成データセットを用いて勝率を推定する。
現実的な SPPO 損失（式 4.6/4.7）を提供し、明示的な報酬モデルに依存せず容易に最適化できるようにする。
SPPO を DPO、IPO、KTO と比較し、 SPPO が好ましい応答の発生確率を高め、却下される確率を低下させる能力を強調する。

実験結果

リサーチクエスチョン

RQ1一般的な好みモデルの下で SPPO は LLM 整合化のためのナッシュ均衡ポリシーへ収束できるか。
RQ2SPPO は標準的な整合化ベンチマークで反復的 DPO および IPO を外部監督が少ない状態で上回るか。
RQ3限られたプロンプトと小さな好みモデルを用いて SPPO は大規模言語モデルへスケール可能か。
RQ4SPPO の損失定式が、データの sparsity を扱う既存のペアワイズ損失アプローチとどのように比較されるか。

主な発見

SPPO は平均ポリシーの収束率を持つ概ねのナッシュ均衡へ収束する。
SPPO の損失は採用された応答の対数尤度を増加させ、却下された応答のそれを減少させ、実験で DPO および IPO より優れている。
UltraFeedback からの 60k プロンプトと 0.4B PairRM ベースの好みモデルを用い、SPPO は Mistral-7B-Instruct-v0.2 をファインチューニングして AlpacaEval 2.0 で GPT-4-Turbo に対する長さ制御勝率で最先端（28.53% 勝利率）を達成。
SPPO は MT-Bench および Open LLM Leaderboard で反復的 DPO および IPO を上回る。
SPPO は GPT-4 など外部監督なしで MT-Bench、Open LLM Leaderboard、および PairRM を含むタスク全般で強力な汎用能力を示す。
このアプローチは GPT-4 などのモデルの応答や好みには依存せず、注釈用の小さな報酬モデルに頼る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。