Skip to main content
QUICK REVIEW

[논문 리뷰] Language Models (Mostly) Know What They Know

Saurav Kadavath, Tom Conerly|arXiv (Cornell University)|2022. 07. 11.
Topic Modeling인용 수 159
한 줄 요약

이 논문은 큰 언어 모델이 적절히 형식화될 때 다양하고 선택형 및 참/거짓 과제에서 잘 보정(calibrated)되며, 모델이 자기 평가하고 정답을 알고 있는지(P(IK))를 특정 제안된 정답에 의존하지 않고 예측할 수 있는 방법을 탐구한다.

ABSTRACT

We study whether language models can evaluate the validity of their own claims and predict which questions they will be able to answer correctly. We first show that larger models are well-calibrated on diverse multiple choice and true/false questions when they are provided in the right format. Thus we can approach self-evaluation on open-ended sampling tasks by asking models to first propose answers, and then to evaluate the probability "P(True)" that their answers are correct. We find encouraging performance, calibration, and scaling for P(True) on a diverse array of tasks. Performance at self-evaluation further improves when we allow models to consider many of their own samples before predicting the validity of one specific possibility. Next, we investigate whether models can be trained to predict "P(IK)", the probability that "I know" the answer to a question, without reference to any particular proposed answer. Models perform well at predicting P(IK) and partially generalize across tasks, though they struggle with calibration of P(IK) on new tasks. The predicted P(IK) probabilities also increase appropriately in the presence of relevant source materials in the context, and in the presence of hints towards the solution of mathematical word problems. We hope these observations lay the groundwork for training more honest models, and for investigating how honesty generalizes to cases where models are trained on objectives other than the imitation of human writing.

연구 동기 및 목표

  • 명시적 선택지를 형식화했을 때 다양한 MCQ, True/False 및 관련 과제에서 대형 언어 모델의 보정 여부를 평가한다.
  • 모델이 자신의 출력을 생성한 후 평가하게 하여 자기 평가를 조사한다.
  • 제시된 정답과 무관하게 그들이 답을 알고 있을 확률(P(IK))을 예측하도록 모델을 학습한다.
  • 소스 자료나 힌트의 존재 여부에 따른 P(IK)의 과제 간 일반화를 검토한다.

제안 방법

  • 다양한 형식 하에서 BIG Bench, MMLU, TruthfulQA, QuALITY, 및 LogiQA에서 800M, 3B, 12B, 52B 모델을 평가한다.
  • MCQ를 문자형 선택지로 형식화하고 Expected Calibration Error (ECE) 및 관련 메트릭으로 보정을 평가한다.
  • True/False 재구성을 테스트하여 P(True) 보정을 측정한다.
  • P(IK)를 예측하는 값 헤드를 학습시키고 자연어 접근 방식과 비교한다.
  • 자체 생성 샘플(T=1) 및 자기 평가 프롬프트를 사용하여 P(True) 정확도와 Brier 점수를 측정한다.

실험 결과

연구 질문

  • RQ1질문이 명시적 옵션으로 제시될 때 대형 언어 모델이 다양한 과제에서 출력에 대해 보정된 확률을 생성할 수 있는가?
  • RQ2모델이 자신의 샘플의 정오를 효과적으로 자기 평가할 수 있는가(P(True)) 그리고 여러 샘플을 브레인스토밍함으로써 이 평가를 향상시킬 수 있는가?
  • RQ3제시된 답에 독립적으로 그들이 답을 알고 있을 확률(P(IK))을 예측하도록 모델을 학습시킬 수 있으며, 과제 간 일반화는 얼마나 잘 되는가?
  • RQ4소스 자료나 힌트가 P(IK) 예측과 보정에 어떤 영향을 미치는가?
  • RQ5RLHF와 프롬프트 형식이 모델의 보정성과 정직성에 미치는 영향은 무엇인가?

주요 결과

  • 옵션이 보이고 형식이 유리할 때 대형 모델은 객관식 과제에서 강한 보정을 보이며, 보정은 모델 크기 및 few-shot 프롬프트로 향상된다.
  • 옵션을 ‘none of the above’로 바꾸면 성능과 보정이 저하되어, 거부를 강요할 때 정의되지 않은 진리에 대해 모델이 어려움을 겪는 것을 시사한다.
  • True/False 구성은 과제 전반에서 잘 보정된 예측(P(True))을 산출하며, 큰 모델일수록 보정이 견고하다.
  • RLHF 정책 보정은 간단한 temperature 조정으로 보정될 수 있어 예측 정렬을 개선한다.
  • 모델 생성 샘플의 자기평가(P(True))는 가능하며, 다수의 샘플(브레인스토밍)을 제시받으면 더 정확하고, 판단 전에 보정은 모델 크기가 커질수록 향상된다.
  • 값 헤드를 사용하여 P(IK)를 예측하도록 모델을 훈련시킬 수 있으며, 과제 간 일반화를 보이고 있지만 보정은 분포 내에서 더 나은 편이다.
  • 문제 해결에 소스 자료와 힌트의 가용성이 있을 때 P(IK)가 증가하며, 추가 맥락에 민감함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.