Skip to main content
QUICK REVIEW

[論文レビュー] Calibrate Before Use: Improving Few-Shot Performance of Language Models

Tony Z. Zhao, Eric Wallace|arXiv (Cornell University)|Feb 19, 2021
Topic Modeling参考文献 33被引用数 72
ひとこと要約

本論文は、GPT-3/GPT-2を用いた few-shot 学習におけるプロンプト誘発バイアスを修正するための文脈的較正を提案し、追加の学習データなしで大幅に精度を向上させ、プロンプトのばらつきを低減します。

ABSTRACT

GPT-3 can perform numerous tasks when provided a natural language prompt that contains a few training examples. We show that this type of few-shot learning can be unstable: the choice of prompt format, training examples, and even the order of the training examples can cause accuracy to vary from near chance to near state-of-the-art. We demonstrate that this instability arises from the bias of language models towards predicting certain answers, e.g., those that are placed near the end of the prompt or are common in the pre-training data. To mitigate this, we first estimate the model's bias towards each answer by asking for its prediction when given the training prompt and a content-free test input such as "N/A". We then fit calibration parameters that cause the prediction for this input to be uniform across answers. On a diverse set of tasks, this contextual calibration procedure substantially improves GPT-3 and GPT-2's average accuracy (up to 30.0% absolute) and reduces variance across different choices of the prompt.

研究の動機と目的

  • 大規模言語モデルに対する in-context prompts を用いた few-shot 学習の不安定性を動機づけ、定量化する。
  • 不安定な予測を導くバイアス(マジョリティラベル、最近度、共通トークン)を特定する。
  • 回答間でモデル出力を整合させるデータフリーの較正手法を提案する。
  • 複数のタスクおよびプロンプト形式にまたがって、較正が精度を向上させ、分散を低減することを示す。

提案手法

  • few-shot prompts の不安定性を引き起こす3つのバイアス源を特定する:マジョリティラベルバイアス、最近度バイアス、共通トークンバイアス。
  • 各回答のバイアスを推定するために、コンテンツフリーな入力(例: 'N/A')を用いるデータフリーの較正手順を提案する。
  • 出力確率を変換してコンテンツフリーケースを回答間で均一にする対角アフィン較正(ベクトルスケーリング)を計算する。
  • 固定プロンプトと多様な形式/例を用いた複数のタスクに対して、GPT-3、GPT-2(および GPT-3 の variant)へ較正を適用する。
  • 最小限のオーバーヘッドで、追加の学習データなしに較正を実装できることを示す。

実験結果

リサーチクエスチョン

  • RQ1大規模言語モデルにおける few-shot で、プロンプト形式、例の選択、順序によって性能はどれくらい不安定になるか?
  • RQ2in-context 学習中のモデル予測の変動を引き起こすバイアスは何か?
  • RQ3データフリーの較正手順は、出力をよりタスク適合性の高いものに揃え、プロンプトの変動に対して頑健にできるか?
  • RQ4文脈的較正は、さまざまなNLPタスクでどの程度精度を向上させ、ばらつきを減らすか?

主な発見

  • 文脈的較正は、タスクとプロンプト全体で最大で絶対値30.0%の平均精度向上をもたらす。
  • 較正は、異なるプロンプト選択や例の順列によって生じる性能分散を低減する。
  • GPT-3 2.7B は、較正後に一部のタスクで GPT-3 175B のベースラインを上回る(絶対値で最大19.3%)。
  • 較正は GPT-2 でも同様に改善をもたらし、手法が GPT-3 を超えて一般化できることを示す。
  • 本手法はテキスト分類、事実検索(LAMA)、情報抽出などにまたがって有効であり、広範な適用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。