Skip to main content
QUICK REVIEW

[논문 리뷰] Statistical Rejection Sampling Improves Preference Optimization

Tianqi Liu, Yao Zhao|arXiv (Cornell University)|2023. 09. 13.
Topic Modeling인용 수 7
한 줄 요약

논문은 추정된 타깃 최적 정책으로부터 선호 데이터를 샘플링하기 위한 통계적 거절 샘플링 최적화(RSO)를 도입하고, DPO와 SLiC 손실을 통합하며, RSO가 과제와 평가 전반에서 일관되게 이 방법들보다 우수한 성능을 보임을 시현한다.

ABSTRACT

Improving the alignment of language models with human preferences remains an active research challenge. Previous approaches have primarily utilized Reinforcement Learning from Human Feedback (RLHF) via online RL methods such as Proximal Policy Optimization (PPO). Recently, offline methods such as Sequence Likelihood Calibration (SLiC) and Direct Preference Optimization (DPO) have emerged as attractive alternatives, offering improvements in stability and scalability while maintaining competitive performance. SLiC refines its loss function using sequence pairs sampled from a supervised fine-tuned (SFT) policy, while DPO directly optimizes language models based on preference data, foregoing the need for a separate reward model. However, the maximum likelihood estimator (MLE) of the target optimal policy requires labeled preference pairs sampled from that policy. DPO's lack of a reward model constrains its ability to sample preference pairs from the optimal policy, and SLiC is restricted to sampling preference pairs only from the SFT policy. To address these limitations, we introduce a novel approach called Statistical Rejection Sampling Optimization (RSO) that aims to source preference data from the target optimal policy using rejection sampling, enabling a more accurate estimation of the optimal policy. We also propose a unified framework that enhances the loss functions used in both SLiC and DPO from a preference modeling standpoint. Through extensive experiments across three diverse tasks, we demonstrate that RSO consistently outperforms both SLiC and DPO on evaluations from both Large Language Model (LLM) and human raters.

연구 동기 및 목표

  • 오프라인 접근 방식을 사용하여 전체 RLHF 복잡성을 피하면서 언어 모델을 인간 선호도와의 정렬(일치)을 향상시키는 것.
  • 선호도 모델링 관점에서 DPO와 SLiC의 손실 표현을 통합하는 것.
  • 통계적 거절 샘플링을 통해 추정된 최적 정책으로부터 선호 데이터 샘플링을 가능하게 하는 확장 가능한 방법을 개발하는 것.
  • 여러 과제 및 평가에서 가장 강력한 오프라인 베이스라인에 대한 RSO의 실증적 이점을 보여주는 것.

제안 방법

  • 최적 정책을 쌍대 보상과 연결하기 위해 Bradley–Terry 프레임워크 하에서 선호도 데이터 모델링을 formalize 한다.
  • 응답 쌍에 대한 선호 확률을 추정하기 위해 쌍대 보상 순위 모델을 훈련한다.
  • 제안으로 SFT 정책을 사용하여 추정된 최적 정책으로부터 샘플을 생성하기 위해 통계적 거절 샘플링을 도입하고, 그 다음 보상 모델로 라벨링한다.
  • 최적 정책을 적합시키기 위해 다수의 손실 함수(로지스틱 회귀 및 힌지)와 데이터 쌍 구성들을 탐구한다.
  • 공통 선호도 모델링 관점에서 DPO와 SLiC 손실을 통합하고(로지스틱 대 힌지) 그 동작을 비교한다.
  • RSO를 더 큰 정책 모델(T5-XXL)에 적용하고 프록시, 골드, AutoSxS 및 인간 지표로 평가하여 확장성을 입증한다.
Figure 1: RSO first fits a pairwise reward-ranking model from human preference data. This model is later applied to generate preference pairs with candidates sampled from the optimal policy, followed by a preference optimization step to align sequence likelihood towards preferences.
Figure 1: RSO first fits a pairwise reward-ranking model from human preference data. This model is later applied to generate preference pairs with candidates sampled from the optimal policy, followed by a preference optimization step to align sequence likelihood towards preferences.

실험 결과

연구 질문

  • RQ1추정된 타깃 최적 정책으로부터 선호 데이터を 샘플링하여 최적 정책 자체를 더 잘 추정할 수 있는 방법은 무엇인가?
  • RQ2거절 샘플링 기반 데이터 생성과 보상 모델 라벨링이 DPO와 SLiC에 비해 정책 최적화를 개선하는가?
  • RQ3다른 손실 표현(로지스틱 대 힌지)과 데이터 분포(직접 샘플, SFT-샘플-랭크, RSO-샘플-랭크)가 인간 선호도 정렬에 어떤 영향을 미치는가?
  • RQ4RSO가 더 큰 정책 모델로 확장되며 과제 및 평가 모달리티 전반에서 정렬을 유지하거나 개선할 수 있는가?

주요 결과

  • RSO 변형은 과제 및 평가 지표 전반에서 DPO와 SLiC 베이스라인을 일관되게 능가한다.
  • 샘플링 전략 중 rso-sample-rank가 직접 샘플링 및 sft-sample-rank approach에 비해 이점을 보인다.
  • RSO는 더 큰 정책 모델(T5-XXL)로 확장되며 AutoSxS에서 DPO보다 두 과제에서 개선된 성과를 보인다.
  • 인간 평가에서 RSO-sample-rank가 시그모이드-노멀 또는 힌지-노멀 손실과 함께 직접 샘플링이나 sft-sample-rank 베이스라인보다 선호된다.
  • 감마(손실 온도)와 베타(거절 샘플링 온도)에 대한 하이퍼파라미터 값이 의미 있는 영향을 미치며, 보통 중간 값이 최적의 성능을 발휘한다.
Figure 2: Statistical rejection sampling illustration. There are three curves in the figure: $M$ times SFT policy, reward, optimal policy. The sample is first generated by SFT policy, then gets accepted or rejected depending on whether a uniform random variable locates in acceptance or rejection reg
Figure 2: Statistical rejection sampling illustration. There are three curves in the figure: $M$ times SFT policy, reward, optimal policy. The sample is first generated by SFT policy, then gets accepted or rejected depending on whether a uniform random variable locates in acceptance or rejection reg

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.