Skip to main content
QUICK REVIEW

[論文レビュー] Larger language models do in-context learning differently

Jerry Wei, Jason Lee|arXiv (Cornell University)|Mar 7, 2023
Topic Modeling被引用数 99
ひとこと要約

この論文は、文脈内学習が小型モデルでは意味的事前知識に依存する一方、より大きなモデルでは入力–ラベルのマッピングを学習する能力として現れることを示しており、それには意味的に関連のないラベルや反転したサンプルを含む。instruction tuning がこれらの能力をさらに形作る。

ABSTRACT

We study how in-context learning (ICL) in language models is affected by semantic priors versus input-label mappings. We investigate two setups-ICL with flipped labels and ICL with semantically-unrelated labels-across various model families (GPT-3, InstructGPT, Codex, PaLM, and Flan-PaLM). First, experiments on ICL with flipped labels show that overriding semantic priors is an emergent ability of model scale. While small language models ignore flipped labels presented in-context and thus rely primarily on semantic priors from pretraining, large models can override semantic priors when presented with in-context exemplars that contradict priors, despite the stronger semantic priors that larger models may hold. We next study semantically-unrelated label ICL (SUL-ICL), in which labels are semantically unrelated to their inputs (e.g., foo/bar instead of negative/positive), thereby forcing language models to learn the input-label mappings shown in in-context exemplars in order to perform the task. The ability to do SUL-ICL also emerges primarily with scale, and large-enough language models can even perform linear classification in a SUL-ICL setting. Finally, we evaluate instruction-tuned models and find that instruction tuning strengthens both the use of semantic priors and the capacity to learn input-label mappings, but more of the former.

研究の動機と目的

  • 事前学習からの意味的事前知識がモデルサイズを超えて文脈内学習(ICL)に与える影響を調べる。
  • 入力–ラベルのマッピングを用いた文脈内で、より大きなモデルが意味的事前知識を覆せるか検討する。
  • 入力とラベルが意味的に無関係な場合(SUL-ICL)における ICL を検討し、入力–ラベルのマッピングの学習を検証する。
  • 指示調整が ICL、意味的事前知識、および入力–ラベルマッピングの学習に与える影響を評価する。
  • SUL-ICL の下での高次元タスク(線形分類など)における出現的能力を評価する。

提案手法

  • 複数のモデルファミリーとサイズに跨って、通常の ICL、反転ラベル ICL、意味的に無関係なラベル ICL(SUL-ICL)を比較する。
  • デフォルトでクラスごとに k=16 の文脈内例を使用し、保持したラベルを含む多様な NLP タスクで評価する。
  • 大規模モデルによる意味的事前知識の上書きをテストするために、文脈内ラベルを体系的に反転させる。
  • 自然言語のターゲットを意味的に無関係なトークン(Foo/Bar)に置換し、入力–ラベルのマッピングの学習を強制する。
  • 指示調整(Flan-PaLM)と事前学習済みモデルの ICL、事前知識、およびマッピングへの影響を評価する。
  • 高次元の線形分類タスクを含めて、非言語的な ICL 能力を検証する。

実験結果

リサーチクエスチョン

  • RQ1例を反転した場合、入力–ラベルのマッピングで小規模言語モデルは意味的事前知識を覆せるか?
  • RQ2ラベルがタスクと意味的な関係を持たない場合(SUL-ICL)でも、大規模言語モデルは文脈内で入力–ラベルのマッピングを学習する能力を獲得するか?
  • RQ3指示調整は、ICL における意味的事前知識への依存と入力–ラベルマッピングの学習との関係にどう影響するか?
  • RQ4SUL-ICL の下で、モデルの規模拡大によって高次元線形分類を実現する能力が出現するか?

主な発見

  • 反転した文脈内ラベルが提示されると、大規模モデルは意味的事前知識を覆すことができるが、小規模モデルはほとんど不可能である。
  • SUL-ICL の下では、スケーリングに伴いモデルの性能が向上し、意味的事前知識なしで入力–ラベルのマッピングを学習する出現的能力を示す。
  • 指示調整済みモデルは入力–ラベルのマッピングをよりよく学習するが、同時に意味的事前知識を強化するため、反転ラベルで事前知識を上書きする能力が低下する。
  • SUL-ICL 設定で追加の exemplars からの性能向上は大規模モデルでより大きく、大規模モデルが文脈内のマッピングをよりうまく活用していることを示唆する。
  • いくつかのタスクでは、RTE や ETHOS の特定タスクなど、SUL-ICL 能力の出現が大規模モデルスケールでのみ観測される。
  • 高次元設定の SUL-ICL 下でも大規模モデルは線形分類を実行できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。