[논문 리뷰] Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
논문은 RLHF 정렬에서 Direct Preference Optimization(DPO)와 Proximal Policy Optimization(PPO)을 이론적으로 분석하고, 대화 및 코드 생성 벤치마크에서 PPO가 일관되게 DPO를 능가한다는 것을 실험적으로 보여주며, CodeContest에서 34B 모델로 최첨단 결과를 달성한다.
Reinforcement Learning from Human Feedback (RLHF) is currently the most widely used method to align large language models (LLMs) with human preferences. Existing RLHF methods can be roughly categorized as either reward-based or reward-free. Novel applications such as ChatGPT and Claude leverage reward-based methods that first learn a reward model and apply actor-critic algorithms, such as Proximal Policy Optimization (PPO). However, in academic benchmarks, state-of-the-art results are often achieved via reward-free methods, such as Direct Preference Optimization (DPO). Is DPO truly superior to PPO? Why does PPO perform poorly on these benchmarks? In this paper, we first conduct both theoretical and empirical studies on the algorithmic properties of DPO and show that DPO may have fundamental limitations. Moreover, we also comprehensively examine PPO and reveal the key factors for the best performances of PPO in fine-tuning LLMs. Finally, we benchmark DPO and PPO across a collection of RLHF testbeds, ranging from dialogue to code generation. Experiment results demonstrate that PPO is able to surpass other alignment methods in all cases and achieve state-of-the-art results in challenging code competitions. Our code is publicly available at https://github.com/openpsi-project/ReaLHF.
연구 동기 및 목표
- Direct Preference Optimization (DPO)가 실제로 LLM의 RLHF에서 Proximal Policy Optimization(PPO)을 능가하는지 평가한다.
- DPO의 근본적인 한계와 RLHF에서 PPO 성능에 영향을 주는 요인을 식별한다.
- 대화 및 코드 생성 RLHF 테스트베드에서 DPO와 PPO를 벤치마크하고 실용적 모범 사례를 결정한다.
제안 방법
- DPO 목표와 PPO 간의 닫힌 형태의 연결을 통해 보상 기반 최적화와 보상 없는 최적화 간의 관계를 이론적으로 분석한다.
- 가능한 편향과 DPO의 데이터 분포 밖(OOD) 위험을 설명하기 위한 반사례와 합성 실험을 제공한다.
- 다양한 모델 크기에 걸쳐 실제 선호 데이터셋(SafeRLHF, HH-RLHF)과 코드 생성 벤치마크(APPS, CodeContest)에서 DPO, 반복 DPO, 및 PPO를 비교하며 광범위한 실험 평가를 수행한다.
- RLHF 성능을 높이는 주요 요인(어드밴티지 정규화, 대형 배치 크기, 기준 모델에 대한 지수이동평균(EMA) 업데이트)을 확인하기 위한 PPO의 제거실험(ablations)을 수행한다.
- DPO의 분포 변화 문제를 완화하기 위해 데이터 분포 효과, 기본 모델 선택, 반복 라벨링 전략을 탐구한다.
실험 결과
연구 질문
- RQ1실제 데이터 분포에서 LLM 정렬을 위한 RLHF에서 DPO가 PPO보다 실제로 우월한가?
- RQ2DPO가 PPO에 비해 나타내는 이론적 및 경험적 한계는 무엇인가?
- RQ3PPO의 RLHF 성능에 가장 큰 영향을 미치는 요인은 무엇이며, 이를 활용하여 벤치마크 전반에서 DPO를 능가할 수 있는가?
- RQ4기본 모델, 선호 데이터 질, 분포 변화가 실제로 DPO의 성능에 어떤 영향을 미치는가?
- RQ5반복적 DPO 또는 데이터 필터링 전략이 코드 생성과 같은 challenging task에서 DPO와 PPO의 차이를 좁힐 수 있는가?
주요 결과
- PPO는 연구된 벤치마크 전체에서 DPO를 일관되게 능가하며, 대화 및 코드 생성 과제를 포함한다.
- DPO는 분포 밖 응답에 과적합될 수 있으며, 선호 데이터 분포가 관련 출력물을 포괄하지 않는 경우 편향된 정책을 보일 수 있다.
- 이론적 분석에 따르면 어떤 PPO 유도 해도 DPO 프레임워크 내에서 표현될 수 있지만, DPO 목적은 더 큰 정책 클래스를 허용하여 기준 정규화 하에 PPO가 도달하지 못하는 바람직하지 않은 해를 가능하게 할 수 있다.
- 제거실험은 PPO가 어드밴티지 정규화, 대형 배치 크기, 기준 모델에 대한 지수이동평균(EMA) 업데이트의 이점을 얻는다고 밝혔으며, EMA는 도전적인 작업에서 추가 이점을 제공한다.
- 34B CodeLlama 기반 모델을 사용한 CodeContest 데이터셋에서 PPO는 최첨단 성능을 달성하며 AlphaCode-41B를 능가하고 보고된 설정에서 10@1k의 큰 향상을 달성했다(16.4%에서 22.4%로 증가).
- 분포 변화 완화(예: Safe 데이터에 대한 SFT 또는 반복 라벨링)를 통해 DPO 성능을 향상시킬 수 있지만, 거의 완벽한 주석자라도 어려운 코드 생성 작업에서 DPO의 경쟁력은 여전히 떨어진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.