[논문 리뷰] Preference Ranking Optimization for Human Alignment
PRO는 여러 응답의 확률적 순위를 최적화하여 인간 선호도에 맞추도록 LLM을 직접 훈련시켜, 다수의 베이스라인을 능가하고 다양한 평가에서 ChatGPT/인간 성능에 근접합니다.
Large language models (LLMs) often contain misleading content, emphasizing the need to align them with human values to ensure secure AI systems. Reinforcement learning from human feedback (RLHF) has been employed to achieve this alignment. However, it encompasses two main drawbacks: (1) RLHF exhibits complexity, instability, and sensitivity to hyperparameters in contrast to SFT. (2) Despite massive trial-and-error, multiple sampling is reduced to pair-wise contrast, thus lacking contrasts from a macro perspective. In this paper, we propose Preference Ranking Optimization (PRO) as an efficient SFT algorithm to directly fine-tune LLMs for human alignment. PRO extends the pair-wise contrast to accommodate preference rankings of any length. By iteratively contrasting candidates, PRO instructs the LLM to prioritize the best response while progressively ranking the rest responses. In this manner, PRO effectively transforms human alignment into aligning the probability ranking of n responses generated by LLM with the preference ranking of humans towards these responses. Experiments have shown that PRO outperforms baseline algorithms, achieving comparable results to ChatGPT and human responses through automatic-based, reward-based, GPT-4, and human evaluations.
연구 동기 및 목표
- 유해하거나 오도하는 콘텐츠를 완화하기 위한 LLM의 인간 정합성 필요성을 동기 부여한다.
- PRO를 인간 선호도 순위를 최적화하는 PPO의 직접적 대안으로 제안한다.
- Bradley-Terry 비교를 긴 선호 순위로 확장하고 PRO를 위한 미분 가능 손실을 도출한다.
- PRO의 데이터 효율성과 자가부트스트래핑 및 보상모델 접합과의 호환성을 입증한다.
- 다양한 순위 길이와 평가 방법에 걸쳐 PRO를 여러 베이스라인과 비교 평가한다.
제안 방법
- 조건부 확률의 재귀적 곱(Equation 5)을 통해 긴 인간 선호 순위를 처리하도록 Bradley-Terry 비교를 확장한다.
- 후보 y^k 하에서 토큰별 로그가능도(log-likelihood)로 정의된 미분 가능 점수 함수 r_pi(x,y^k) (Equation 6).
- 합성 손실 최소화로 LLM을 학습한다: PRO 목표와 SFT 손실의 합(Equation 7).
- LLM 랭킹을 인간 선호에 맞추기 위해 미분 가능 대조(PRO) 손실(Equation 8)을 사용한다.
- 선택적으로 합리적 랭킹, 차별화된 대조(Equation 9-11), 자가부트스트래핑 증강(Equation 12) 등 RLHF 요소를 접목한다.
- backbone으로 LLaMA-7B를 사용한 HH-RLHF 데이터셋에서 PRO를 SFT, RLHF, CoH, RRHF, BoN 및 강력한 LLMS 베이스라인과 비교하는 실험; BLEU, 보상모델, GPT-4 및 인간 평가로 평가한다.
실험 결과
연구 질문
- RQ1긴 순위 시퀀스를 사용하여 사람이 선호하는 방향으로 LLM을 맞추는 데 PRO가 PPO 기반 RLHF를 능가할 수 있는가?
- RQ2랭킹 길이가 정렬 품질과 평가 점수에 어떤 영향을 미치는가?
- RQ3더 높은 품질이나 더 다양한 후보 랭킹의 사용이 PRO 성능에 어떤 영향을 주는가?
- RQ4자동 평가와 인간 평가를 통해 PRO가 기존 베이스라인과 어떻게 비교되는가?
- RQ5유연성과 효율의 균형을 맞추기 위해 PRO를 RLHF 구성 요소로 효과적으로 접목시킬 수 있는가?
주요 결과
| 하위집합 | 방법 | BLEU | 보상 |
|---|---|---|---|
| Harmless_base | PRO | 12.05 | 62.96 |
| Helpful_base | PRO | 20.83 | 48.51 |
| Helpful_online | PRO | 28.75 | 59.02 |
| Helpful_rejection | PRO | 27.17 | 53.28 |
- 랭킹 길이가 2일 때에도 PRO가 경쟁력 있는 베이스라인을 능가하며 HH-RLHF 원시 지표에서 SFT보다 6.52 보상 포인트, RRHF보다 3.1 포인트를 상회한다.
- 더 긴 랭킹 시퀀스가 PRO의 인간 정합 성능을 일관되게 향상시킨다.
- 더 높고 다양한 후보 랭킹(예: ChatGPT 샘플 포함)은 PRO 성능을 향상시키고 파라미터 수가 적은 더 큰 모델과 유사한 보상 점수를 달성한다.
- 자가부트스트래핑은 점진적 이득을 주지만, 고품질 외부 샘플의 이득이 더 크다.
- GPT-4 및 인간 평가에서 PRO는 RRHF 및 기본 Golden 샘플보다 우세하게 나타나 인간 선호에 대한 강한 정합성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.