[논문 리뷰] Training language models to follow instructions with human feedback
이 논문은 인간 시연과 선호도(RLHF)로 GPT-3를 파인튜닝하면 InstructGPT가 나오고, 이는 훨씬 적은 파라미터로 GPT-3 베이스라인보다 우수하며 진실성 향상과 광범위한 작업 세트에서 독성 감소를 가져온다는 것을 보여준다.
Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In other words, these models are not aligned with their users. In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback. Starting with a set of labeler-written prompts and prompts submitted through the OpenAI API, we collect a dataset of labeler demonstrations of the desired model behavior, which we use to fine-tune GPT-3 using supervised learning. We then collect a dataset of rankings of model outputs, which we use to further fine-tune this supervised model using reinforcement learning from human feedback. We call the resulting models InstructGPT. In human evaluations on our prompt distribution, outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters. Moreover, InstructGPT models show improvements in truthfulness and reductions in toxic output generation while having minimal performance regressions on public NLP datasets. Even though InstructGPT still makes simple mistakes, our results show that fine-tuning with human feedback is a promising direction for aligning language models with human intent.
연구 동기 및 목표
- 대규모 언어 모델을 인간 피드백으로 파인튜닝하는 것이 다양한 작업에 걸쳐 사용자 지시에 맞게 정렬될 수 있음을 시연한다.
- 작고 지시사항에 특화된 모델이 지시 따르기 프롬프트에서 훨씬 더 큰 기준 모델을 능가할 수 있음을 보인다.
- RLHF를 사용할 때 진실성, 독성, 명시적 제약 준수의 변화을 평가한다.
- 훈련 데이터 밖의 보류된 라벨러와 실제 API 프롬프트에 대한 일반화 가능성을 평가한다.
제안 방법
- 레이블러로부터 시연된 출력을 수집하여 supervised fine-tuning (SFT) 모델을 훈련한다.
- 모델 출력에 대한 사람 간의 쌍 대 선호를 수집하여 보상 모델 (RM)을 훈련한다.
- RM을 보상으로 사용하여 Proximal Policy Optimization (PPO)으로 정책을 파인튜닝한다.
- 공개 NLP 데이터셋에서의 성능 저하를 줄이기 위해 PPO 업데이트를 사전학습 기울기와 혼합 (PPO-ptx)한다.
- 보류된 API 프롬프트와 공개 NLP 데이터셋에서 인간 라벨러의 선호를 사용해 평가하고; GPT-3 및 FLAN/T0 베이스라인과 비교한다.
실험 결과
연구 질문
- RQ1RLHF 파인튜닝이 넓은 작업 분포에 걸쳐 사용자 지시를 따르도록 언어 모델을 정렬할 수 있는가?
- RQ2작고 InstructGPT 모델이 지시 따르기 프롬프트에서 훨씬 큰 GPT-3 베이스라인을 능가하는가?
- RQ3RLHF가 진실성, 독성, 명시적 제약 준수에 미치는 영향은 베이스라인 모델과 비교해 어떠한가?
- RQ4InstructGPT 모델이 보류된 라벨러 및 학습 분포 밖의 프롬프트에 일반화하는가?
- RQ5정렬 이득과 표준 NLP 벤치마크에서의 성능 간의 트레이드오프(정렬 비용)가 있는가?
주요 결과
- InstructGPT 출력이 GPT-3 출력보다 선호되며; 1.3B InstructGPT가 API 프롬프트 분포에서 175B GPT-3보다 선호된다.
- InstructGPT 모델은 TruthfulQA에서 GPT-3에 비해 진실성이 약 두 배이고 오픈 도메인 작업에서 약 절반의 환각률을 보인다(21% vs 41%).
- InstructGPT는 존중하도록 프롬트될 때 GPT-3에 비해 독성 출력이 약 25% 감소한다.
- 정렬 후 공개 NLP 데이터셋(SQuAD, DROP, HellaSwag, WMT 2015 FR→EN)에서 작지만 측정 가능한 성능 저하가 있으며, 이는 PPO와 사전학습 기울기를 혼합한 PPO-ptx로 완화될 수 있다.
- 1.3B 파라미터 모델이어도 InstructGPT는 지시 따르기 작업에서 GPT-3의 175B를 능가할 수 있어, 규모보다 정렬의 가치가 크다는 것을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.