[논문 리뷰] Understanding the Effects of RLHF on LLM Generalisation and Diversity
이 논문은 감독 학습 미세조정(SFT), 보상 모형화(RM), 그리고 RLHF가 데이터 분포 외 일반화와 출력 다양성에 어떤 영향을 미치는지 분석하며, RLHF가 일반화는 개선하지만 다양성은 감소하는 trade-off를 드러냅니다.
Large language models (LLMs) fine-tuned with reinforcement learning from human feedback (RLHF) have been used in some of the most widely deployed AI models to date, such as OpenAI's ChatGPT or Anthropic's Claude. While there has been significant work developing these methods, our understanding of the benefits and downsides of each stage in RLHF is still limited. To fill this gap, we present an extensive analysis of how each stage of the process (i.e. supervised fine-tuning (SFT), reward modelling, and RLHF) affects two key properties: out-of-distribution (OOD) generalisation and output diversity. OOD generalisation is crucial given the wide range of real-world scenarios in which these models are being used, while output diversity refers to the model's ability to generate varied outputs and is important for a variety of use cases. We perform our analysis across two base models on both summarisation and instruction following tasks, the latter being highly relevant for current LLM use cases. We find that RLHF generalises better than SFT to new inputs, particularly as the distribution shift between train and test becomes larger. However, RLHF significantly reduces output diversity compared to SFT across a variety of measures, implying a tradeoff in current LLM fine-tuning methods between generalisation and diversity. Our results provide guidance on which fine-tuning method should be used depending on the application, and show that more research is needed to improve the tradeoff between generalisation and diversity.
연구 동기 및 목표
- SFT, RM, 및 RLHF가 분포 내 성능, 분포 외 일반화 및 출력 다양성에 어떤 영향을 미치는지 평가한다.
- 다양성을 입력별(per-input) 및 입력 간(across-input) 설정에서 여러 지표로 정량화한다.
- Best-of-N(Bon)이나 다른 단계가 RLHF와 SFT의 차이를 설명하는지 확인한다.
- 요약 및 지시에 따른 작업에서 강력한 OOD 테스트 세트로 결과를 평가한다.
제안 방법
- LLaMa 7B 기본 모델을 세 가지 기술(SFT, 보상 모형화(RM), 그리고 인간 피드백으로부터의 강화학습(RLHF))을 사용하여 미세조정한다.
- RM을 훈련하여 출력 쌍 간의 인간 선호를 예측하도록 하고, PPO와 KL 패널티를 사용해 정책을 SFT에 가깝게 유지하며 RLHF에 RM을 통합한다.
- RM과 최적화의 효과를 구분하기 위해 보조점으로서 Bon 샘플링을 평가한다.
- 요약 및 지시 지시 작업에 대해 PvR로 ID 및 OOD 성능을 측정하기 위해 GPT-4를 시뮬레이션 인간 평가자로 사용한다.
- 별개의 N-그램(EAD), Sentence-BERT 코사인 유사도, 및 NLI 다양성을 통해 출력 다양성을 입력별 및 입력 간 설정에서 측정한다.
실험 결과
연구 질문
- RQ1SFT, RM, 및 RLHF가 각각 데이터 분포 외 입력에 대한 일반화에도 어떻게 기여하는가?
- RQ2RLHF가 다양한 작업에서 SFT에 비해 모델 출력의 다양성에 어떤 영향을 미치는가?
- RQ3Best-of-N 샘플링이 RM 주도 RLHF의 이점을 재현하는가, 아니면 다른 역학을 드러내는가?
- RQ4요약 및 지시 이행 작업에서 RLHF 하의 일반화와 다양성 간의 trade-off는 어떤 모습인가?
주요 결과
- RLHF는 SFT보다 ID 및 특히 OOD 성능이 더 우수하다.
- RLHF는 입력별 지표에서 SFT에 비해 출력 다양성을 크게 감소시키고, 입력 간 다양성에서도 약하지만 여전히 감소한다.
- Best-of-N은 특정 설정에서 RLHF보다 우수할 수 있지만, 그 이점은 기본 모델의 일반화에 따라 다르며 BoN은 추론 시 비용이 더 크다.
- KL 패널티는 다양성과 일반화 간의 trade-off를 개선하지 못하며, KL을 늘리면 성능과 입력별 다양성이 모두 감소하는 경향이 있다.
- 작업 간에 RLHF의 OOD에서의 상대적 이점은 더 어려운 분포 변화(특히 지시 이행)에서 더 두드러진다.
- RLHF 하에서 입력 간 모드 붕괴가 관찰되어 입력 간 다양성이 감소한다는 증거가 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.