Skip to main content
QUICK REVIEW

[論文レビュー] The Learnability of In-Context Learning

Noam Wies, Yoav Levine|arXiv (Cornell University)|Mar 14, 2023
Topic Modeling被引用数 8
ひとこと要約

この論文は、凍結された事前学習モデルを用いた文脈内学習の PAC ベースのフレームワークを導入し、混合タスク事前学習分布の緩やかな仮定の下で有限サンプル学習可能性の保証を示す。

ABSTRACT

In-context learning is a surprising and important phenomenon that emerged when modern language models were scaled to billions of learned parameters. Without modifying a large language model's weights, it can be tuned to perform various downstream natural language tasks simply by including concatenated training examples of these tasks in its input. Though disruptive for many practical applications of large language models, this emergent learning paradigm is not well understood from a theoretical perspective. In this paper, we propose a first-of-its-kind PAC based framework for in-context learnability, and use it to provide the first finite sample complexity results for the in-context learning setup. Our framework includes an initial pretraining phase, which fits a function to the pretraining distribution, and then a second in-context learning phase, which keeps this function constant and concatenates training examples of the downstream task in its input. We use our framework in order to prove that, under mild assumptions, when the pretraining distribution is a mixture of latent tasks (a model often considered for natural language pretraining), these tasks can be efficiently learned via in-context learning, even though the model's weights are unchanged and the input significantly diverges from the pretraining distribution. Our theoretical analysis reveals that in this setting, in-context learning is more about identifying the task than about learning it, a result which is in line with a series of recent empirical findings. We hope that the in-context learnability framework presented in this paper will facilitate future progress towards a deeper understanding of this important new learning paradigm.

研究の動機と目的

  • 凍結モデルを用いた文脈内学習の PAC 学習フレームワークを定義する。
  • マルチタスク事前学習設定における文脈内学習の有限サンプル複雑性の結果を提供する。
  • 文脈内学習はプロンプトからタスクを学習するのではなく潜在タスクを識別できることを示す。
  • 理論的結果を、文脈内学習がタスク識別に依存するという経験的観察と結びつける。

提案手法

  • 事前学習分布を潜在タスクの混合としてモデル化し、タスクを表す潜在変数を導入する。
  • 文脈内学習を、入力-ラベル対を連結したプロンプトを用いてラベルを予測することとして定義する。
  • 事前学習の混合分布に関する仮定を設定する(近似独立性、トークン下限、正の事前分布)。
  • 正しいタスクと他のタスクのプロンプト尤度の比が収束し、k が大きくなると正しい成分に有利になることを証明する。
  • マージンと KL ダイバージェンス条件の下で効率的な文脈内学習可能性を示す有限サンプル境界を導出する。
  • 大マージンと小マージンの二ケース分析を提供し、予測誤差を境界付ける。

実験結果

リサーチクエスチョン

  • RQ1凍結された事前学習モデルは、潜在的なタスクの混合から drawn した連結された例で促された downstream タスクで低い文脈内損失を達成できるか。
  • RQ2どの条件とサンプル複雑性の下で、文脈内学習は潜在タスクを識別し、重み更新なしでベイズ最適予測を達成するか。
  • RQ3事前学習分布の混合構造は、文脈内学習の有効性と学習可能性にどう影響するか。
  • RQ4混合成分間のマージンと KL ダイバージェンスは、有限サンプル学習可能性を保証する上でどのような役割を果たすか。

主な発見

  • 文献的に穏やかな仮定の下で、有限サンプル(多項式)学習可能性の保証を提供。
  • 文脈内プロンプトは混合成分上の事前分布を再重みづけする傾向があり、潜在タスクの識別を助ける。
  • 十分な文脈内例があれば、現実には大きなマージンのシナリオで地上真の文脈内予測子はベイズ最適予測子に一致する。
  • マージンが小さくても損失はベイズ誤差内に抑えられ、予測の頑健性を保証する。
  • 前処理の不完全さやタスク認識誤差が全体の学習可能性を達成するために制御可能であることを示す二部分析。
  • このフレームワークは無限データを超えて一般化され、タスクの学習ではなく識別が文脈内学習の中心であるという経験的観察と整合する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。