QUICK REVIEW

[논문 리뷰] Self-Play Preference Optimization for Language Model Alignment

Yue Wu, Zhiqing Sun|arXiv (Cornell University)|2024. 05. 01.

Natural Language Processing Techniques인용 수 12

한 줄 요약

본 논문은 Self-Play Preference Optimization (SPPO)를 제안합니다. 이는 일반 선호 확률에 대해 2인자 상수합 게임을 해결하여 언어 모델을 정렬하는 알고리즘으로, 수렴 보장과 최소한의 외부 감독으로 강력한 실험 결과를 제공합니다.

ABSTRACT

Standard reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed Self-Play Preference Optimization (SPPO), utilizes iterative policy updates to provably approximate the Nash equilibrium. Additionally, we propose a new SPPO objective which is both strongly motivated by theory and is simple and effective in practice. In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench, Arena-Hard, and the Open LLM Leaderboard. Starting from a stronger base model Llama-3-8B-Instruct, we are able to achieve a length-controlled win rate of 38.77%. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models. Codes are available at https://github.com/uclaml/SPPO.

연구 동기 및 목표

Bradley–Terry와 같은 파라메트릭 보상 모델의 한계를 초래하는 인간 선호의 비합리성 해결.
LLM 정렬을 두 사람의 상수합 게임으로 형식화하여 내쉬 균형 정책을 식별.
대규모 LLM 미세 조정에 대해 수렴 보장을 갖춘 확장 가능한 SPPO 알고리즘 개발.
제한된 데이터와 작은 선호 모델을 사용하여 강력한 baselines 대비 SPPO의 효과를 입증합니다.

제안 방법

RLHF를 상수합 두인자 게임으로 형식화하고 von Neumann 승자(Nash equilibrium)를 목표로 합니다.
정책을 반복적으로 업데이트하는 온라인 적응 곱셈 가중치 프레임워크를 채택합니다(식 4.1).
샘플링 데이터에 대한 제곱손실 최소화를 통해 지수 업데이트를 근사합니다(식 4.4/4.5).
현재 정책에 의해 생성되고 선호 모델에 의해 주석이 달린 작은 합성 데이터 세트를 사용하여 승률을 추정합니다.
명시적 보상 모델에 의존하지 않고 쉽게 최적화할 수 있는 실용적인 SPPO 손실(식 4.6/4.7)을 제공합니다.
SPPO를 DPO, IPO 및 KTO와 비교하여 선호 응답의 가능성을 높이고 거부된 응답의 가능성을 낮추는 능력을 강조합니다.

실험 결과

연구 질문

RQ1SPPO가 일반 선호 모델 하에서 LLM 정렬에 대한 내쉬 균형 정책으로 수렴할 수 있습니까?
RQ2SPPO가 Heavy external supervision 없이 표준 정렬 벤치마크에서 반복적인 DPO 및 IPO보다 우수합니까?
RQ3제한된 프롬프트와 작은 선호 모델을 사용하여 대형 언어 모델에 SPPO가 확장 가능합니까?
RQ4SPPO의 손실 구성은 데이터 희소성을 다루는 기존의 동등 손실 접근법과 어떻게 비교됩니다?

주요 결과

SPPO는 평균 정책에 대한 수렴률이 있는 근사 내쉬 균형으로 수렴합니다.
SPPO의 손실은 선택된 응답의 로그 가능도를 증가시키고 거부된 응답의 가능도는 감소시키며, 실험에서 DPO와 IPO를 능가합니다.
UltraFeedback에서 단 60k 프롬프트와 0.4B PairRM 기반 선호 모델만으로 SPPO가 Mistral-7B-Instruct-v0.2를 미세 조정하여 AlpacaEval 2.0에서 GPT-4-Turbo에 대해 길이 제어 승률에서 최첨단을 달성(28.53% 승률)합니다.
SPPO는 MT-Bench와 Open LLM Leaderboard에서 반복 DPO 및 IPO를 능가합니다.
SPPO는 GPT-4 또는 더 강력한 모델의 외부 감독 없이 MT-Bench, Open LLM Leaderboard, PairRM 등 여러 작업에서 강력한 일반 목적 성능을 달성합니다.
이 접근법은 GPT-4 또는 유사 모델의 응답이나 선호를 필요로 하지 않으며, 대신 주석용으로 작은 보상 모델에 의존합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.