[논문 리뷰] RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment
RAFT는 프롬프트당 여러 출력 샘플링, 보상 모델로 순위 매김, 상위 샘플에 파인튜닝하는 프레임워크로, PPO 기반 RLHF보다 안정성 및 효율성을 제공합니다. 이는 LLM 및 확산모델 유사 설정에서 합리적인 perplexity와 출력 다양성을 유지하면서 보상 지표를 개선합니다.
Generative foundation models are susceptible to implicit biases that can arise from extensive unsupervised training data. Such biases can produce suboptimal samples, skewed outcomes, and unfairness, with potentially serious consequences. Consequently, aligning these models with human ethics and preferences is an essential step toward ensuring their responsible and effective deployment in real-world applications. Prior research has primarily employed Reinforcement Learning from Human Feedback (RLHF) to address this problem, where generative models are fine-tuned with RL algorithms guided by a human-feedback-informed reward model. However, the inefficiencies and instabilities associated with RL algorithms frequently present substantial obstacles to the successful alignment, necessitating the development of a more robust and streamlined approach. To this end, we introduce a new framework, Reward rAnked FineTuning (RAFT), designed to align generative models effectively. Utilizing a reward model and a sufficient number of samples, our approach selects the high-quality samples, discarding those that exhibit undesired behavior, and subsequently enhancing the model by fine-tuning on these filtered samples. Our studies show that RAFT can effectively improve the model performance in both reward learning and other automated metrics in both large language models and diffusion models.
연구 동기 및 목표
- 생성 기반 기초 모델을 인간 선호와 윤리에 맞추려는 정렬의 동기를 제시한다.
- 안정성, 메모리, 데이터 요구 측면에서 RLHF/PPO의 한계를 보여준다.
- 보상 기반 샘플 순위와 감독형 파인튜닝을 활용하는 견고한 대안으로 RAFT를 제안한다.
- RAFT의 대형 언어 모델과 확산모델 유사 시스템에의 적용 가능성을 보여준다.
- 표준 정렬 벤치마크에서 RAFT의 성능을 기준선과 비교하여 정량화한다.
제안 방법
- 현재 모델을 사용하여 프롬프트 배치를 반복적으로 수집하고 프롬프트당 K개의 응답을 생성한다.
- 각 프롬프트의 K개 응답을 보상 모델로 순위 매겨 최상위 샘플을 선택한다.
- 필터링된 고보상 샘플에 대해 모델을 파인튜닝하고 수렴할 때까지 세 단계를 반복한다.
- 안정성 향상 및 메모리 부담 감소를 위해 모델 업데이트와 데이터 수집을 분리하는 점을 강조한다.
- 필요에 따라 초기 모델로부터의 편차를 제약하기 위해 KL 페널티를 통한 유창성/다양성 규제기를 도입한다.
- 초하 파라미터 가이드(b, K, lambda, beta)를 제공하고 구현 고려사항을 논의한다.
실험 결과
연구 질문
- RQ1RAFT가 안정성 향상과 메모리 요구 감소를 달성하면서 PPO 기반 RLHF와 견줄 만한 정렬 성능을 낼 수 있는가?
- RQ2RAFT의 주요 하이퍼파라미터(K, lambda, beta)가 보상, perplexity, 다양성 지표에 어떤 영향을 미치는가?
- RQ3RAFT는 보상 노이즈 및 보상 스케일링에 강건한가, 그리고 순위 기반 필터링이 보상 해킹을 완화하는 데 도움이 되는가?
- RQ4RAFT가 LLM 외의 확산모델 유사 생성기에까지 확장될 수 있는가?
주요 결과
| 모델 | 정렬 | 보상 | ppl | msttr-100 | distinct 1 | distinct 2 | unique 1 | unique 2 | 길이 |
|---|---|---|---|---|---|---|---|---|---|
| HH-RLHF-Rejected | - | 0.156 | - | 0.623 | 0.037 | 0.284 | 10740 | 130082 | 144.3 |
| HH-RLHF-Chosen | - | 1.873 | - | 0.624 | 0.036 | 0.282 | 10702 | 135767 | 154.2 |
| LLaMA-7B | - | -0.435 | 4.781 | 0.579 | 0.032 | 0.258 | 7651 | 96071 | 119.9 |
| LLaMA-7B | SFT | 0.772 | 3.781 | 0.597 | 0.031 | 0.250 | 8198 | 110759 | 145.4 |
| LLaMA-7B-SFT | PPO | 2.077 | 4.156 | 0.597 | 0.033 | 0.262 | 7370 | 102437 | 127.8 |
| LLaMA-7B-SFT | RAFT-K32- λ 1.0 | 2.294 | 4.031 | 0.611 | 0.032 | 0.258 | 8691 | 123576 | 156.2 |
- RAFT-정렬 모델은 HH-RLHF 데이터에서 시작 SFT 및 PPO 기준선에 비해 평균 보상이 더 높다.
- lambda 1.0인 RAFT-K32가 평균 보상 2.294를 달성하면서도 당황도 4.031로 중간을 유지한다.
- 보고된 실험에서 PPO보다 보상과 당황도의 균형이 더 좋다.
- K를 증가시키면 일반적으로 best-of-K 성능과 다양성 지표가 향상되지만 추론 시간이 늘어난다.
- RAFT는 하이퍼파라미터 설정 전반에서 안정성을 보이고 PPO에 비해 보상 스케일링과 노이즈에 더 강건하다.
- GPT-4 및 인간 평가가 자동 지표와 일치하여 이진 비교에서 RAFT-정렬 모델을 선호한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.