QUICK REVIEW

[논문 리뷰] ORPO: Monolithic Preference Optimization without Reference Model

Jiwoo Hong, Noah Lee|arXiv (Cornell University)|2024. 03. 12.

Multi-Criteria Decision Making인용 수 7

한 줄 요약

ORPO는 RLHF나 기준 모델이 필요 없는 참조 없이 단일 모듈의 오즈-비(odds-ratio) 기반 선호도 최적화 방법으로 파인튜닝의 정합성을 개선하고, 여러 모델과 데이터셋에서 강한 지시 준수 성능을 달성한다.

ABSTRACT

While recent preference alignment algorithms for language models have demonstrated promising results, supervised fine-tuning (SFT) remains imperative for achieving successful convergence. In this paper, we study the crucial role of SFT within the context of preference alignment, emphasizing that a minor penalty for the disfavored generation style is sufficient for preference-aligned SFT. Building on this foundation, we introduce a straightforward and innovative reference model-free monolithic odds ratio preference optimization algorithm, ORPO, eliminating the necessity for an additional preference alignment phase. We demonstrate, both empirically and theoretically, that the odds ratio is a sensible choice for contrasting favored and disfavored styles during SFT across the diverse sizes from 125M to 7B. Specifically, fine-tuning Phi-2 (2.7B), Llama-2 (7B), and Mistral (7B) with ORPO on the UltraFeedback alone surpasses the performance of state-of-the-art language models with more than 7B and 13B parameters: achieving up to 12.20% on $ ext{AlpacaEval}_{2.0}$ (Figure 1), 66.19% on IFEval (instruction-level loose, Table 6), and 7.32 in MT-Bench (Figure 12). We release code and model checkpoints for Mistral-ORPO-$α$ (7B) and Mistral-ORPO-$β$ (7B).

연구 동기 및 목표

선호도 정합성에서 감독 학습 파인 튜닝(SFT)의 역할을 조사한다.
참조 모델이 없는 단일 모듈 정합 방법(ORPO)을 제안한다.
표준 벤치마크에서 125M에서 7B까지 다양한 모델 규모에 대해 ORPO의 효과를 입증한다.
다양한 작업에서 ORPO를 RLHF, DPO, 그리고 SFT 기준과 비교한다.

제안 방법

음의로그가능도 손실에 덧붙여 오즈-비 기반 패널티를 정의한다.
L_SFT와 상대 비 손실 L_OR를 결합해 L_ORPO를 형성한다.
최적화를 안정시키기 위해 로그 오즈 비의 로그 시그모이드를 사용한다.
모델 Phi-2, Llama-2, Mistral로 HH-RLHF 및 UltraFeedback 데이터셋에서 평가한다.
모델 규모 전반에서 SFT, PPO, DPO와 비교한다.

실험 결과

연구 질문

RQ1간단한 패널티 항으로도 선호도 정합성을 위해 SFT만으로 sufficient한가?
RQ2참조 모델이 없는 오즈-비 목표가 여러 모델 규모에서 정합 성능을 향상시키는가?
RQ3표준 벤치마크에서 승률 및 보상 분포 측면에서 ORPO는 RLHF 및 DPO와 어떻게 비교되는가?
RQ4지시 준수 능력과 다중 턴 작업에 대한 ORPO의 영향은 무엇인가?
RQ5ORPO가 기준 기반 방법보다 계산적으로 더 효율적인가?

주요 결과

ORPO는 강한 지시 수행 성능을 달성하여 AlpacaEval 2.0 및 MT-Bench에서 7B+의 일부 최첨단 모델들을 능가한다.
Mistral-ORPO-α 및 Mistral-ORPO-β (7B)는 AlpacaEval2.0에서 각각 11.33%와 12.20%, MT-Bench에서 7.23과 7.32에 도달했다.
ORPO가 HH-RLHF에서 모든 테스트 모델 규모에서 SFT 및 PPO를 능가하며, SFT 대비 승률 최대 78.0%, PPO 대비 79.4%에 달한다.
UltraFeedback에서 ORPO는 SFT 대비 최대 80.5%, PPO 대비 85.8%의 승률을 보이며, 더 큰 모델일수록 DPO 비교가 더 강하다.
ORPO는 참조 모델이 필요하지 않아 RLHF/DPO에 비해 순전파 수와 계산 비용을 감소시킨다.
테스트 설정에서 보상 분포가 ORPO가 RLHF 및 DPO보다 더 높은 기대 보상을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.