Skip to main content
QUICK REVIEW

[논문 리뷰] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

Yuntao Bai, Andy Jones|arXiv (Cornell University)|2022. 04. 12.
Topic Modeling인용 수 360
한 줄 요약

이 논문은 선호도 모델링과 RLHF를 통해 언어 모델을 도움이 되고 해롭지 않게 만드는 방법을 제시하고, 온라인 반복 학습, 견고성, 그리고 모델 크기와 과제에 따른 도움성과 해로움의 균형을 분석한다.

ABSTRACT

We apply preference modeling and reinforcement learning from human feedback (RLHF) to finetune language models to act as helpful and harmless assistants. We find this alignment training improves performance on almost all NLP evaluations, and is fully compatible with training for specialized skills such as python coding and summarization. We explore an iterated online mode of training, where preference models and RL policies are updated on a weekly cadence with fresh human feedback data, efficiently improving our datasets and models. Finally, we investigate the robustness of RLHF training, and identify a roughly linear relation between the RL reward and the square root of the KL divergence between the policy and its initialization. Alongside our main results, we perform peripheral analyses on calibration, competing objectives, and the use of OOD detection, compare our models with human writers, and provide samples from our models using prompts appearing in recent related work.

연구 동기 및 목표

  • 선호도 모델링(PM)과 RLHF가 언어 모델을 동시에 도움이 되고 해롭지 않게 정렬할 수 있는지 탐구한다.
  • 온라인에서의 반복적 RLHF 학습이 모델 성능과 데이터셋 품질에 미치는 영향을 조사한다.
  • 다양한 모델 규모에 걸친 보정, 견고성, 그리고 도움성과 해로움 사이의 균형을 평가한다.
  • 정렬이 특수 기술(예: 코딩, 요약)과 OOD 탐지에 대한 호환성을 탐색한다.
  • 다양한 NLP 벤치마크에서 정렬이 능력 및 안전성 지표에 미치는 영향을 평가한다.

제안 방법

  • 52B 규모 모델과 상호작용하는 노동자 crowdworker를 통해 별도의 도움fulness 및 무해성(red-teaming) 선호 데이터 수집한다.
  • 선호 데이터로 PM을 학습시키고, HF 데이터로 미세조정하기 전의 프리트레이닝 단계(PMP)를 적용한다.
  • PM 점수를 보상으로 사용하여 모델을 미세조정하기 위해 인간 피드백으로부터의 강화학습(RLHF)을 적용한다.
  • 표준 NLP 벤치마크 및 특수 기술에서 PM 정확도, 보정, RLHF 모델 성능을 평가한다.
  • 주간 주기로 PM과 RLHF 정책을 온라인으로 업데이트하고, 데이터 분할 및 과적합에 대한 견고성을 분석한다.
  • 엘로(Elo)-스타일의 대진 비교를 사용하여 모델을 비교하고 이를 PM 점수 및 RLHF 보상으로 번역한다.

실험 결과

연구 질문

  • RQ1도움성과 무해성 데이터로 학습된 PM이 능력을 희생하지 않고도 모델 정렬을 개선할 수 있는가?
  • RQ2온라인/반복적 RLHF가 시간에 따라 데이터셋 품질과 모델 성능에 어떤 영향을 미치는가?
  • RQ3초기화로부터의 KL 발산과 훈련 중 RL 보상 간의 관계는 무엇인가?
  • RQ4도움성과 무해성 사이의 긴장관계가 있으며, 모델 크기가 이를 어떻게 좌우하는가?
  • RQ5정렬 기술이 전문 기술 및 안전을 위한 OOD 탐지에 일반화될 수 있는가?

주요 결과

  • RLHF로 학습된 모델은 대부분의 NLP 평가에서 기본 모델보다 향상되며, 정렬의 이점은 모델 크기가 클수록 커진다.
  • 도움성과 무해성 데이터를 혼합하면 서로 단독으로 학습하는 경우보다 더 나은 전반적 행동을 보이며, 무해한 요청에 대한 정중한 거절을 포함한다.
  • 초기화로부터의 KL 발산의 제곱근과 훈련 중 관찰된 RL 보상 사이에 대략 선형 관계가 있다.
  • 주간 업데이트로 온라인 RLHF를 반복하면 정적 학습에 비해 모델 품질과 데이터셋 유용성이 크게 향상된다.
  • OOD 탐지는 이상하거나 해로운 요청을 최소한의 손해로 효과적으로 거부하여 안전성에 도움이 되며 성능 손실은 크지 않다.
  • 작은 규모에서 도움성과 무해성 사이에 뚜렷한 긴장이 존재하지만, 모델 크기가 커질수록 그 차이가 줄어든다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.