[論文レビュー] Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
本論文は、デモンストレーションにおける真の入力-ラベル対応付けが、文脈内学習(I CL)に厳密には必要ないことを示している。代わりに、ラベル空間、入力分布、デモンストレーションの形式が大半の改善を生み出し、メタ学習がこれらの効果を増幅する。
Large language models (LMs) are able to in-context learn -- perform a new task via inference alone by conditioning on a few input-label pairs (demonstrations) and making predictions for new inputs. However, there has been little understanding of how the model learns and which aspects of the demonstrations contribute to end task performance. In this paper, we show that ground truth demonstrations are in fact not required -- randomly replacing labels in the demonstrations barely hurts performance on a range of classification and multi-choce tasks, consistently over 12 different models including GPT-3. Instead, we find that other aspects of the demonstrations are the key drivers of end task performance, including the fact that they provide a few examples of (1) the label space, (2) the distribution of the input text, and (3) the overall format of the sequence. Together, our analysis provides a new way of understanding how and why in-context learning works, while opening up new questions about how much can be learned from large language models through inference alone.
研究の動機と目的
- 大規模言語モデルにおいて、文脈内学習(ICL)がゼロショットよりも改善する理由を調査する。
- デモンストレーションにおける真の入力-ラベル対応付けの重要性を評価する。
- デモンストレーションのどの側面(ラベル空間、入力分布、形式)がICLの性能に寄与するかを特定する。
- 文脈内学習目的を用いたメタ訓練が、デモンストレーションの要素への依存度にどのように影響するかを検討する。
提案手法
- 金ラベル、ランダムラベル、またはデモンストレーションなしを用いたデモンストレーションで、分類と多肢選択タスクを横断して12の言語モデルを評価する。
- 入力分布、ラベル空間、形式を含むデモンストレーションの要素を系統的にアブレーションする。
- 異なる条件付け信号を解釈するため、ダイレクト・プロンプトとチャネル・プロンプト法を比較する。
- タスクとドメインを横断する頑健性を評価するため、26データセットを活用する。
- デフォルトはk=16のデモ例とし、異なるkとテンプレートで検証する。
実験結果
リサーチクエスチョン
- RQ1デモンストレーションにおける真の入力-ラベル対応付けは、ICLの性能に臨界的な影響を与えるか。
- RQ2デモンストレーションのどの要素(入力分布、ラベル空間、形式)がICLの成功に最も影響するか。
- RQ3文脈内学習目的を用いたメタ訓練は、デモンストレーション要素への感度をどのように変えるか。
- RQ4代替のデモンストレーション信号(例:ランダムラベル、OOD入力)を用いた場合、モデルはどの程度ICLの利得を保持できるか。
主な発見
- デモンストレーションで金ラベルをランダムラベルに置換しても、ほとんどのモデルとタスクで性能はほとんど低下しない。
- ラベル空間と入力テキストの分布の両方が、ラベルが不正確であっても、ICL性能の重要な推進力である。
- デモンストレーションの全体的な形式を維持することが重要であり、ラベルとしてランダムな英単語を用いる方が、ラベルなしよりも優れている。
- 文脈内学習目的を用いたメタ訓練は、入力-ラベル対応付けよりも形式といった単純なデモンストレーション要素への依存度を拡大する。
- 指示なしデータを伴う未ラベル入力とランダムラベルを組み合わせることで、モデルはほぼkショット性能を達成でき、強いゼロショット潜在を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。