[논문 리뷰] ORPO: Monolithic Preference Optimization without Reference Model
ORPO는 RLHF나 기준 모델이 필요 없는 참조 없이 단일 모듈의 오즈-비(odds-ratio) 기반 선호도 최적화 방법으로 파인튜닝의 정합성을 개선하고, 여러 모델과 데이터셋에서 강한 지시 준수 성능을 달성한다.
While recent preference alignment algorithms for language models have demonstrated promising results, supervised fine-tuning (SFT) remains imperative for achieving successful convergence. In this paper, we study the crucial role of SFT within the context of preference alignment, emphasizing that a minor penalty for the disfavored generation style is sufficient for preference-aligned SFT. Building on this foundation, we introduce a straightforward and innovative reference model-free monolithic odds ratio preference optimization algorithm, ORPO, eliminating the necessity for an additional preference alignment phase. We demonstrate, both empirically and theoretically, that the odds ratio is a sensible choice for contrasting favored and disfavored styles during SFT across the diverse sizes from 125M to 7B. Specifically, fine-tuning Phi-2 (2.7B), Llama-2 (7B), and Mistral (7B) with ORPO on the UltraFeedback alone surpasses the performance of state-of-the-art language models with more than 7B and 13B parameters: achieving up to 12.20% on $ ext{AlpacaEval}_{2.0}$ (Figure 1), 66.19% on IFEval (instruction-level loose, Table 6), and 7.32 in MT-Bench (Figure 12). We release code and model checkpoints for Mistral-ORPO-$α$ (7B) and Mistral-ORPO-$β$ (7B).
연구 동기 및 목표
- 선호도 정합성에서 감독 학습 파인 튜닝(SFT)의 역할을 조사한다.
- 참조 모델이 없는 단일 모듈 정합 방법(ORPO)을 제안한다.
- 표준 벤치마크에서 125M에서 7B까지 다양한 모델 규모에 대해 ORPO의 효과를 입증한다.
- 다양한 작업에서 ORPO를 RLHF, DPO, 그리고 SFT 기준과 비교한다.
제안 방법
- 음의로그가능도 손실에 덧붙여 오즈-비 기반 패널티를 정의한다.
- L_SFT와 상대 비 손실 L_OR를 결합해 L_ORPO를 형성한다.
- 최적화를 안정시키기 위해 로그 오즈 비의 로그 시그모이드를 사용한다.
- 모델 Phi-2, Llama-2, Mistral로 HH-RLHF 및 UltraFeedback 데이터셋에서 평가한다.
- 모델 규모 전반에서 SFT, PPO, DPO와 비교한다.
실험 결과
연구 질문
- RQ1간단한 패널티 항으로도 선호도 정합성을 위해 SFT만으로 sufficient한가?
- RQ2참조 모델이 없는 오즈-비 목표가 여러 모델 규모에서 정합 성능을 향상시키는가?
- RQ3표준 벤치마크에서 승률 및 보상 분포 측면에서 ORPO는 RLHF 및 DPO와 어떻게 비교되는가?
- RQ4지시 준수 능력과 다중 턴 작업에 대한 ORPO의 영향은 무엇인가?
- RQ5ORPO가 기준 기반 방법보다 계산적으로 더 효율적인가?
주요 결과
- ORPO는 강한 지시 수행 성능을 달성하여 AlpacaEval 2.0 및 MT-Bench에서 7B+의 일부 최첨단 모델들을 능가한다.
- Mistral-ORPO-α 및 Mistral-ORPO-β (7B)는 AlpacaEval2.0에서 각각 11.33%와 12.20%, MT-Bench에서 7.23과 7.32에 도달했다.
- ORPO가 HH-RLHF에서 모든 테스트 모델 규모에서 SFT 및 PPO를 능가하며, SFT 대비 승률 최대 78.0%, PPO 대비 79.4%에 달한다.
- UltraFeedback에서 ORPO는 SFT 대비 최대 80.5%, PPO 대비 85.8%의 승률을 보이며, 더 큰 모델일수록 DPO 비교가 더 강하다.
- ORPO는 참조 모델이 필요하지 않아 RLHF/DPO에 비해 순전파 수와 계산 비용을 감소시킨다.
- 테스트 설정에서 보상 분포가 ORPO가 RLHF 및 DPO보다 더 높은 기대 보상을 나타낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.