[论文解读] Self-Play Preference Optimization for Language Model Alignment
本文提出 Self-Play Preference Optimization (SPPO),一种通过在一般偏好概率上求解双人常和博弈来对齐语言模型的算法,具备收敛保证并在极少外部监督下取得了强有力的实证结果。
Standard reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed Self-Play Preference Optimization (SPPO), utilizes iterative policy updates to provably approximate the Nash equilibrium. Additionally, we propose a new SPPO objective which is both strongly motivated by theory and is simple and effective in practice. In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench, Arena-Hard, and the Open LLM Leaderboard. Starting from a stronger base model Llama-3-8B-Instruct, we are able to achieve a length-controlled win rate of 38.77%. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models. Codes are available at https://github.com/uclaml/SPPO.
研究动机与目标
- 解决限制参数化奖励模型(如 Bradley–Terry)的非理性人类偏好
- 将 LLM 对齐建模为一个两人常和博弈,以确定一个纳什均衡策略
- 开发一个可扩展的 SPPO 算法,具备对大规模 LLM 微调的收敛保证
- 在有限数据和小型偏好模型下,对比强基线,展示 SPPO 的有效性。
提出的方法
- 将 RLHF 表述为一个常和两人博弈,目标是 von Neumann 决胜者(Nash 均衡)。
- 采用在线自适应乘法权框架迭代更新策略(等式 4.1)。
- 通过在抽样数据上最小化平方损失来近似指数更新(等式 4.4/4.5)。
- 使用当前策略生成的小型合成数据集并由偏好模型标注来估计胜利概率。
- 给出一个实用的 SPPO 损失(等式 4.6/4.7),便于在不依赖显式奖励模型的情况下进行优化。
- 将 SPPO 与 DPO、IPO、KTO 进行比较,强调 SPPO 提升偏好响应的可能性并降低被拒绝的概率。
实验结果
研究问题
- RQ1SPPO 是否能在一般偏好模型下收敛到 LLM 对齐的纳什均衡策略?
- RQ2在标准对齐基准上,SPPO 是否在没有大量外部监督的情况下优于迭代的 DPO 与 IPO?
- RQ3SPPO 能否在使用有限提示和小型偏好模型的情况下扩展到大型语言模型?
- RQ4与现有的成对损失方法相比,SPPO 的损失公式在处理数据稀疏方面有何差异?
主要发现
- SPPO 以对近似纳什均衡收敛,且对平均策略具有可证明的收敛速率。
- SPPO 的损失会增加所选响应的对数似然并降低被拒绝响应的对数似然,在实验中优于 DPO 与 IPO。
- 仅使用 60k 提示来自 UltraFeedback 且偏好模型为 0.4B 的 PairRM,SPPO 对 Mistral-7B-Instruct-v0.2 的微调在 AlpacaEval 2.0 上以 28.53% 的胜率击败 GPT-4-Turbo,达到前沿长度控制的胜率。
- SPPO 在 MT-Bench 与 Open LLM Leaderboard 上优于迭代的 DPO 与 IPO。
- SPPO 在 MT-Bench、Open LLM Leaderboard、以及 PairRM 等任务上展现出较强的通用性,而无需来自 GPT-4 或更强模型的外部监督。
- 该方法不需要来自 GPT-4 或类似模型的回应或偏好,而是依赖一个小型奖励模型进行标注。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。