Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

Zixiang Chen, Yihe Deng|arXiv (Cornell University)|2024. 01. 02.
Topic Modeling인용 수 11
한 줄 요약

SPIN은 약한 SFT 모델을 자기대화를 통해 미세조정하고, 상대방으로는 자신의 이전 반복을 사용하여 추가 인간 데이터 없이 목표 데이터 분포에 점진적으로 근접하게 맞춘다. 벤치마크 전반에서 성능을 개선한다.

ABSTRACT

Harnessing the power of human-annotated data through Supervised Fine-Tuning (SFT) is pivotal for advancing Large Language Models (LLMs). In this paper, we delve into the prospect of growing a strong LLM out of a weak one without the need for acquiring additional human-annotated data. We propose a new fine-tuning method called Self-Play fIne-tuNing (SPIN), which starts from a supervised fine-tuned model. At the heart of SPIN lies a self-play mechanism, where the LLM refines its capability by playing against instances of itself. More specifically, the LLM generates its own training data from its previous iterations, refining its policy by discerning these self-generated responses from those obtained from human-annotated data. Our method progressively elevates the LLM from a nascent model to a formidable one, unlocking the full potential of human-annotated demonstration data for SFT. Theoretically, we prove that the global optimum to the training objective function of our method is achieved only when the LLM policy aligns with the target data distribution. Empirically, we evaluate our method on several benchmark datasets including the HuggingFace Open LLM Leaderboard, MT-Bench, and datasets from Big-Bench. Our results show that SPIN can significantly improve the LLM's performance across a variety of benchmarks and even outperform models trained through direct preference optimization (DPO) supplemented with extra GPT-4 preference data. This sheds light on the promise of self-play, enabling the achievement of human-level performance in LLMs without the need for expert opponents. Codes are available at https://github.com/uclaml/SPIN.

연구 동기 및 목표

  • 추가 인간 주석 데이터 수집 없이 LLM 개선을 촉진한다.
  • 모델 자체를 플레이어이자 상대방으로 활용하는 자기대화(Self-Play) 미세조정 프레임워크를 개발한다.
  • 합리적인 가정 하에 목표 데이터 분포로의 수렴을 보인다.
  • 일반적으로 사용되는 벤치마크에서 SPIN을 평가하여 기본 SFT 대비 이득을 정량화한다.
  • 자기대화를 강한 LLM으로 이끄는 경로로서의 이론적 및 실증적 통찰을 강조한다.

제안 방법

  • 주 모델이 인간 데이터와 모델의 이전 반복을 구별하려고 하는 두-player 게임으로 SPIN을 정의한다.
  • 데이터에서의 응답인지 모델에서 나온 응답인지를 점수화하는 함수 f를 학습하기 위해 로지스틱 손실을 사용한다.
  • 상대의 닫힌 형식 업데이트를 도출한다: p(y|x) ∝ pθt(y|x) exp( f(x,y)/λ ).
  • f를 연속 모델 분포의 로그비율로 매개화한다, f(x,y)=λ log [ pθt+1(y|x) / pθt(y|x) ].
  • 프롬프트 전반에 걸친 데이터 대 상대 응답을 비교하는 SPIN 목적함수를 최소화하여 θ를 반복적으로 업데이트한다.
  • SPIN을 DPO 및 RLHF/RLAIF와 비교하고, SPIN은 오직 SFT 데이터와 자기 생성 데이터를 사용한다는 점을 주목한다.

실험 결과

연구 질문

  • RQ1약한 LLM을 추가 인간 주석 데이터 없이 강한 LLM으로 업그레이드할 수 있는가?
  • RQ2반복적인 모델 버전 간의 자기대화가 목표 데이터 분포에 대한 정렬을 어떻게 촉진할 수 있는가?
  • RQ3반복적인 SPIN 학습이 표준 LLM 벤치마크에서 측정 가능한 이득을 가져오는가?
  • RQ4SPIN이 p_data로 수렴하는 조건은 무엇인가?
  • RQ5데이터 요구사항과 성능 측면에서 SPIN과 직접 선호도 최적화를 어떻게 비교하는가?

주요 결과

  • SPIN은 기본 SFT 모델과 비교하여 HuggingFace Open LLM Leaderboard 벤치마크에서 성능을 크게 향상시킨다.
  • Iteration 0은 기본 SFT 모델 대비 주목할 만한 이득을 제공하며(예: 평균 +2.66), TruthfulQA 와 GSM8k에서 큰 이득을 보여준다.
  • 이후 반복에서도 평균 성능이 계속 향상되지만 시간이 지남에 따라 수익률은 감소한다.
  • SPIN은 Open LLM Leaderboard와 MT-Bench에서 추가적으로 62k GPT-4-스타일 선호 데이터로 학습된 모델과 비슷한 성과를 달성한다.
  • 이 방법은 추가적인 인간 선호 데이터가 필요 없고, 모델 자체가 생성한 자기대화 데이터를 사용한다.
  • 이론적 결과는 합리적인 손실 가정 하에 목표 데이터 분포로의 수렴을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.