QUICK REVIEW

[논문 리뷰] Calibrate Before Use: Improving Few-Shot Performance of Language Models

Tony Z. Zhao, Eric Wallace|arXiv (Cornell University)|2021. 02. 19.

Topic Modeling참고 문헌 33인용 수 72

한 줄 요약

이 논문은 GPT-3/GPT-2의 few-shot 학습에서 프롬프트로 인한 편향을 해결하기 위해 맥락적 보정(contextual calibration)을 도입하고, 정확도를 크게 높이며 프롬프트 분산을 줄이고 추가 학습 데이터 없이.

ABSTRACT

GPT-3 can perform numerous tasks when provided a natural language prompt that contains a few training examples. We show that this type of few-shot learning can be unstable: the choice of prompt format, training examples, and even the order of the training examples can cause accuracy to vary from near chance to near state-of-the-art. We demonstrate that this instability arises from the bias of language models towards predicting certain answers, e.g., those that are placed near the end of the prompt or are common in the pre-training data. To mitigate this, we first estimate the model's bias towards each answer by asking for its prediction when given the training prompt and a content-free test input such as "N/A". We then fit calibration parameters that cause the prediction for this input to be uniform across answers. On a diverse set of tasks, this contextual calibration procedure substantially improves GPT-3 and GPT-2's average accuracy (up to 30.0% absolute) and reduces variance across different choices of the prompt.

연구 동기 및 목표

대형 언어 모델의 인-context 프롬프트를 활용한 few-shot 학습의 불안정성을 동기 부여하고 정량화한다.
불안정한 예측을 이끄는 편향들(다수 레이블, 최신성, 공통 토큰)을 식별한다.
답변 간 출력을 정렬하기 위한 데이터 없는 보정 방법을 제안한다.
다양한 작업과 프롬프트 형식에 걸쳐 보정이 정확도를 향상시키고 분산을 줄임을 보여준다.

제안 방법

few-shot 프롬프트의 불안정을 유발하는 편향의 세 가지 원천 식별: 다수 라벨 편향, 최신성 편향, 공통 토큰 편향.
콘텐츠가 없는 입력(예: 'N/A')을 사용하여 각 답변 편향을 추정하는 데이터 없는 보정 절차를 제안한다.
대각선 선형 보정(벡터 스케일링)을 계산하여 출력 확률을 변환하고 콘텐츠 없는 경우가 응답 간에 균일하도록 한다.
고정된 프롬프트와 다양한 형식/예제로 여러 작업에 걸쳐 GPT-3, GPT-2(및 GPT-3 변형)에 보정을 적용한다.
보정이 최소 오버헤드로 추가 학습 데이터 없이 구현될 수 있음을 시연한다.

실험 결과

연구 질문

RQ1대형 언어 모델에서 프롬프트 형식, 예시 선택 및 순서에 따른 few-shot 성능의 불안정성은 어느 정도인가?
RQ2인-컨텍스트 학습 중 모델 예측의 가변성을 이끄는 편향은 무엇인가?
RQ3데이터 없이 보정 절차가 출력이 더 작업에 적합하고 프롬프트 변화에 대해 강인하도록 정렬할 수 있는가?
RQ4맥락 보정이 다양한 NLP 작업에서 정확도를 얼마나 향상시키고 분산을 얼마나 줄이는가?

주요 결과

맥락 보정은 작업과 프롬프트 전반에서 평균 정확도에 최대 30.0% 절대 향상을 제공한다.
보정은 서로 다른 프롬프트 선택 및 예시 순열로 인한 성능 분산을 줄인다.
보정 후 GPT-3 2.7B가 일부 작업에서 GPT-3 175B 기준선을 능가할 수 있다(최대 19.3% 절대 차이).
보정은 GPT-2에서도 유사하게 개선되어 본 방법이 GPT-3를 넘어 일반화됨을 시사한다.
이 방법은 텍스트 분류, 사실 검색(LAMA), 정보 추출에 걸쳐 작동하며 광범위한 적용 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.