Skip to main content
QUICK REVIEW

[논문 리뷰] Fine-Tuning Language Models from Human Preferences

Daniel M. Ziegler, Nisan Stiennon|arXiv (Cornell University)|2019. 09. 18.
Topic Modeling참고 문헌 46인용 수 383
한 줄 요약

이 논문은 인간의 선호에서 보상 모델을 학습하고 KL 제약이 있는 RL로 대형 언어 모델을 스타일화된 텍스트 연속 및 추상적 요약에 미세조정하여, 비교적 적은 라벨 데이터로도 인간 평가 기반의 강한 성능을 달성한다.

ABSTRACT

Reward learning enables the application of reinforcement learning (RL) to tasks where reward is defined by human judgment, building a model of reward by asking humans questions. Most work on reward learning has used simulated environments, but complex information about values is often expressed in natural language, and we believe reward learning for language is a key to making RL practical and safe for real-world tasks. In this paper, we build on advances in generative pretraining of language models to apply reward learning to four natural language tasks: continuing text with positive sentiment or physically descriptive language, and summarization tasks on the TL;DR and CNN/Daily Mail datasets. For stylistic continuation we achieve good results with only 5,000 comparisons evaluated by humans. For summarization, models trained with 60,000 comparisons copy whole sentences from the input but skip irrelevant preamble; this leads to reasonable ROUGE scores and very good performance according to our human labelers, but may be exploiting the fact that labelers rely on simple heuristics.

연구 동기 및 목표

  • 언어 작업에 대한 인간 선호로부터 보상 학습을 입증한다.
  • 사전 학습된 언어 모델과 RL을 결합하여 인간이 판단한 보상을 최적화한다.
  • 보상 모델링을 위한 온라인 대 오프라인 데이터 수집을 탐색한다.
  • 인간 평가를 사용하여 스타일리시한 연속 및 요약 성능을 평가한다.

제안 방법

  • 사전 학습된 언어 모델(GPT-2 774M)과 네 가지 후보 연속에서의 인간 비교로 학습된 보상 모델 r로 시작한다.
  • Eq. 1에 따른 인간의 선택에 대해 소프트맥스 교차 엔트로피 손실로 r을 학습한다.
  • 수정된 보상 R(x,y)=r(x,y)−β log(π(y|x)/ρ(y|x))를 사용하여 Proximal Policy Optimization(PPO)으로 정책 π를 미세조정한다.
  • 업데이트된 정책 π와 초기 모델 ρ 사이에 KL 제약을 부과하여 drift를 방지한다 (β 항).
  • 원한다면 목표 KL(π,ρ)을 타깃으로 온라인으로 β를 조정한다.
  • 온라인 또는 오프라인 데이터 수집 모드에서 인간 라벨을 수집하고 주기적으로(온라인) 또는 한 번(오프라인) r을 재학습한다.
  • 스타일리시한 연속 작업의 경우 감정성과 서술성을 최적화한다; 요약의 경우 CNN/Daily Mail 및 TL;DR 데이터셋을 최적화한다.

실험 결과

연구 질문

  • RQ1인간의 선호로 학습된 보상 모델이 대형 언어 모델의 RL 미세조정을 효과적으로 안내할 수 있는가?
  • RQ2온라인 대 오프라인 보상 데이터 수집이 성능과 안정성에 어떤 영향을 미치는가?
  • RQ3스타일리시한 연속성과 요약을 최적화할 때 질적·정량적 차이는 무엇인가?
  • RQ4KL 제약이 RL 미세조정 중 충실도, 일관성 및 스타일 준수에 어느 정도 영향을 미치는가?

주요 결과

  • 약 5k 비교 정도의 소량의 인간 피드백으로도 모델을 인간이 선호하는 스타일리시한 연속으로 편향시킬 수 있다.
  • 보상 모델 기반 RL은 제로샷이나 순수 지도학습 baselines보다 스타일리시한 연속에서 인간이 인지하는 품질을 향상시킨다.
  • 요약의 경우 60k 인간 비교로 학습된 모델은 ‘스마트 카피커’처럼 동작하며 종종 문장 전체를 복사하고, 기준 대비 유리한 인간 평가를 얻지만 복사 휴리스틱을 악용할 수 있다.
  • 온라인 데이터 수집은 일반적으로 요약에서 성능을 향상시키는 반면, 스타일 작업은 오프라인 데이터로도 유사한 이점을 보인다.
  • 지도 학습 기준에서 시작한 RL 미세조정은 종종 강한 ROUGE 점수를 내지만, 인간 평가에서는 실제 인간 선호를 최적화하는 RL 조정된 정책이 더 우수하다.
  • 60k RL-조정 모델은 문장을 많이 복사하는 경향이 강하다(71% TL;DR, 98% CNN/DM에서 복사된 문장), 선호 기반 RL 하에서 강한 추출적 경향을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.