Skip to main content
QUICK REVIEW

[논문 리뷰] Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets

Irene Solaiman, Christy Dennison|arXiv (Cornell University)|2021. 06. 18.
Topic Modeling참고 문헌 20인용 수 37
한 줄 요약

PALMS는 목표 값에 맞춰 언어 모델을 정렬하기 위해 값(target values)이 포함된 데이터셋을 사용하는 반복적인 미세 조정 과정이며, GPT-3의 다양한 크기에 걸친 인간 평가 및 독성 지표를 통해 평가된다. 더 큰 모델일수록 더 큰 효과를 보인다.

ABSTRACT

Language models can generate harmful and biased outputs and exhibit undesirable behavior according to a given cultural context. We propose a Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets, an iterative process to significantly change model behavior by crafting and fine-tuning on a dataset that reflects a predetermined set of target values. We evaluate our process using three metrics: quantitative metrics with human evaluations that score output adherence to a target value, toxicity scoring on outputs; and qualitative metrics analyzing the most common word associated with a given social category. Through each iteration, we add additional training dataset examples based on observed shortcomings from evaluations. PALMS performs significantly better on all metrics compared to baseline and control models for a broad range of GPT-3 language model sizes without compromising capability integrity. We find that the effectiveness of PALMS increases with model size. We show that significantly adjusting language model behavior is feasible with a small, hand-curated dataset.

연구 동기 및 목표

  • 유해한 출력 감소를 촉진하고 LM의 동작을 문화적 가치에 맞추도록 정렬하는 것을 목표로 한다.
  • 미리 정의된 값으로 모델의 동작을 유도하기 위한 데이터셋 기반의 반복적 미세 조정 과정을 제안한다.
  • 인간 판단, 독성 점수 측정 및 정성적 분석 등 다양한 지표를 사용하여 PALMS를 평가한다.
  • 모델 크기가 가치 정합성의 효과에 어떻게 작용하는지 보여준다.

제안 방법

  • 목표 값을 반영하는 데이터셋에서 모델을 미세 조정하는 반복적인 PALMS 프로세스를 개발한다.
  • 평가에서 관찰된 미흡한 점에 기초하여 학습 데이터를 제작하고 확장한다.
  • 정량 지표와 인간 평가, 독성 점수, 정성적 단어 연상 분석의 조합을 사용한다.
  • 여러 GPT-3 사이즈에 걸쳐 PALMS 기반 모델을 기본 모델 및 대조 모델과 비교한다.
  • 작고 손으로 선별된 데이터셋으로도 PALMS가 행동을 의미 있게 조정할 수 있음을 보여준다.

실험 결과

연구 질문

  • RQ1PALMS가 언어 모델 출력에서 미리 정의된 목표 값에 대한 준수를 향상시키는가?
  • RQ2모델 크기에 따라 PALMS가 독성 및 유해한 출력에 어떤 영향을 미치는가?
  • RQ3더 큰 언어 모델에서 PALMS의 효과가 확장되는가?
  • RQ4작고 손으로 선별된 데이터셋이 능력을 저해하지 않으면서도 상당한 가치 정합성을 달성할 수 있는가?

주요 결과

  • PALMS는 광범위한 GPT-3 사이즈에 걸쳐 기본 모델 및 대조 모델에 비해 모든 평가 지표에서 의미적으로 더 우수하게 작동한다.
  • PALMS의 효과는 모델 크기가 커질수록 증가한다.
  • 작고 손으로 선별된 데이터셋으로도 언어 모델의 동작을 상당히 조정하는 것이 가능하다.
  • 평가에는 인간 판단, 독성 점수, 그리고 단어 연상에 대한 정성적 분석이 포함된 정량 지표가 포함된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.