[論文レビュー] Schema-learning and rebinding as mechanisms of in-context learning and emergence
要旨: 本論文は、インコンテキスト学習(ICL)をクローン構造因果グラフ(CSCGs)で達成できることを示し、ICLのメカニズムをスキーマ学習、テンプレート回路、リトリーバル(検索)、再結線を通じて説明し、トランスフォーマーとの類似性を主張します。
In-context learning (ICL) is one of the most powerful and most unexpected capabilities to emerge in recent transformer-based large language models (LLMs). Yet the mechanisms that underlie it are poorly understood. In this paper, we demonstrate that comparable ICL capabilities can be acquired by an alternative sequence prediction learning method using clone-structured causal graphs (CSCGs). Moreover, a key property of CSCGs is that, unlike transformer-based LLMs, they are {\em interpretable}, which considerably simplifies the task of explaining how ICL works. Specifically, we show that it uses a combination of (a) learning template (schema) circuits for pattern completion, (b) retrieving relevant templates in a context-sensitive manner, and (c) rebinding of novel tokens to appropriate slots in the templates. We go on to marshall evidence for the hypothesis that similar mechanisms underlie ICL in LLMs. For example, we find that, with CSCGs as with LLMs, different capabilities emerge at different levels of overparameterization, suggesting that overparameterization helps in learning more complex template (schema) circuits. By showing how ICL can be achieved with small models and datasets, we open up a path to novel architectures, and take a vital step towards a more general understanding of the mechanics behind this important capability.
研究の動機と目的
- 非トランスフォーマー系列モデル(CSCGs)でICLがどう発生するか、そしてそのメカニズムがトランスフォーマーとどのように関連するかを説明する。
- 学習テンプレート(スキーマ)と再結線をICLのコアプロセスとして実証する。
- パラメータ過剰化、スキーマ形成、文脈検索がICLと出現をデータセット全体で駆動することを示す。
提案手法
- クローン構造因果グラフ(CSCGs)とその生成と遷移構造を紹介する。
- 既存のスキーマを新しい観測へマッピングするための再結線を定義・実装する。
- 予測サプライズに基づいて emission 行列のみを更新する高速な再結線アルゴリズムを提案する。
- タスク完遂のためにスキーマを検索し結び付けるMAP推論とEMベースの更新を実証する。
- CSCGのメカニズムをトランスフォーマーのICLに関連づけ、アーキテクチャ設計への示唆を議論する。
![Figure 1: A . Inducing the structure of the room ( cognitive maps ) from sequential sensory observations is challenging because of perceptual aliasing – local observations do not identify locations uniquely. B . Cloned hidden Markov models (HMMs) [ 7 ] . Each observation is mapped to multiple clone](https://ar5iv.labs.arxiv.org/html/2307.01201/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1CSCGsは標準的なICLベンチマークでLLMsと同等のICLを達成できるか?
- RQ2テンプレート回路(スキーマ)と再結線は文脈依存の一般化にどう寄与するか?
- RQ3学習と新出のICL機能のエマージェンスにおける過parameter化の役割は何か?
- RQ4再結線は学習済みアルゴリズムの新規トークンとプロンプトへの迅速な転移を可能にするか?
- RQ5CSCGのメカニズムはゼロショット学習や指示ベースの検索など、トランスフォーマーICLに通常関連するタスクへ一般化するか?
主な発見
- CSCGsは文脈依存の潜在表現と推移的一般化を伴うICL様の挙動を再現できる。
- テンプレート(スキーマ)と文脈感受性のある検索を学習することで、効果的なプロンプト完遂とタスク実行を実現する。
- 新規トークンを learned slots に再結線すると、同じテンプレートを全く新しい入力へ適用できる。
- 過parameter化は潜在概念の分離を高め、タスク間でのICL性能を向上させる。
- GINC、LIALT、およびダックス風テストの実験は提案メカニズムを支持し、モデル容量とデータパターンに関連した出現を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。