Skip to main content
QUICK REVIEW

[論文レビュー] Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity

Yao Lu, Max Bartolo|arXiv (Cornell University)|Apr 18, 2021
Topic Modeling被引用数 119
ひとこと要約

この論文は、文脈内学習におけるサンプル順序がモデルやタスク全体の性能に劇的な影響を与えることを示し、追加のラベル付きデータなしで高性能な順序を自動的に特定するエントロピーベースのプロービングを導入して、顕著な改善をもたらす。

ABSTRACT

When primed with only a handful of training samples, very large, pretrained language models such as GPT-3 have shown competitive results when compared to fully-supervised, fine-tuned, large, pretrained language models. We demonstrate that the order in which the samples are provided can make the difference between near state-of-the-art and random guess performance: essentially some permutations are "fantastic" and some not. We analyse this phenomenon in detail, establishing that: it is present across model sizes (even for the largest current models), it is not related to a specific subset of samples, and that a given good permutation for one model is not transferable to another. While one could use a development set to determine which permutations are performant, this would deviate from the true few-shot setting as it requires additional annotated data. Instead, we use the generative nature of language models to construct an artificial development set and based on entropy statistics of the candidate permutations on this set, we identify performant prompts. Our method yields a 13% relative improvement for GPT-family models across eleven different established text classification tasks.

研究の動機と目的

  • In-context learningにおけるサンプル順序がモデルサイズとタスクを問わず性能に有意な影響を与えることを示す。
  • 良い置換はモデルやタスク間で転移しないことを示す。
  • ラベル付き開発データなしで性能の良いプロンプト順序を自動的に識別するプロービングベースの手法を提案する。
  • LMの生成性を活用して評価用のラベルなしプロービングセットを構築する。
  • 多様なデータセットとモデルを跨ってエントロピー-based probingによる改善を定量化する。

提案手法

  • SST-2および他のデータセットで4ショットプロンプトを用いてGPT-2/GPT-3モデルの順序感度を分析する。
  • トレーニングサンプルに対応するラベルなしの例を生成するよう言語モデルからサンプリングしてプロービングセットを構築する。
  • Global EntropyとLocal Entropy指標を定義し、プロービングセットの予測に基づいて候補プロンプト順序をランク付けする。
  • 上位k個のプロンプト順序(k=4)を選択し、複数のデータセットで評価する。
  • エントロピー-based probingが11タスク全体で平均的に約13%の相対的改善をもたらすことを示す。

実験結果

リサーチクエスチョン

  • RQ1少数ショットのプロンプト順序感度はモデルサイズやタスク間で普遍的か?
  • RQ2ラベル付き開発データなしで自動的に性能の良いプロンプト順序を識別できるか?
  • RQ3良いプロンプト置換はモデルやタスク間で転移するか?
  • RQ4エントロピーに基づくプロービング指標は異なるテンプレートやデータセットに対して頑健か?

主な発見

  • プロンプト順序の変動性によりGPT-2/GPT-3サイズ間で性能がほぼ最先端からほぼランダムまで振れる可能性がある。
  • 1つの良い置換は異なるモデルやデータセットに信頼性高く転移しない。
  • Global EntropyとLocal Entropyはラベルなしプロービングセットを用いて性能の高いプロンプト順序を安定して識別する。
  • エントロピー-based probingは11のテキスト分類タスクで平均的に13%の相対的改善をもたらす(モデルサイズ横断)。
  • 選択されたプロンプトは、すべての候補順序を用いる場合と比較して性能のばらつきが著しく小さくなる。
  • エントロピーに基づくプロービングはプロンプト選択のための単純な検証セットのチューニングやデータ分割法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。