Skip to main content
QUICK REVIEW

[論文レビュー] Context Collapse: In-Context Learning and Model Collapse

Josef Ott|arXiv (Cornell University)|Jan 1, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

修士論文は大規模言語モデルにおける文脈学習とモデル崩壊を検討し、線形トランスフォーマーにおける相転換と非対称(skew-symmetric)解を示し、データレジーム下で崩壊のほぼ必然的収束を確立するとともに、長い生成過程中の文脈崩壊の概念を導入する。

ABSTRACT

This thesis investigates two key phenomena in large language models (LLMs): in-context learning (ICL) and model collapse. We study ICL in a linear transformer with tied weights trained on linear regression tasks, and show that minimising the in-context loss leads to a phase transition in the learned parameters. Above a critical context length, the solution develops a skew-symmetric component. We prove this by reducing the forward pass of the linear transformer under weight tying to preconditioned gradient descent, and then analysing the optimal preconditioner. This preconditioner includes a skew-symmetric component, which induces a rotation of the gradient direction. For model collapse, we use martingale and random walk theory to analyse simplified settings - linear regression and Gaussian fitting - under both replacing and cumulative data regimes. We strengthen existing results by proving almost sure convergence, showing that collapse occurs unless the data grows sufficiently fast or is retained over time. Finally, we introduce the notion of context collapse: a degradation of context during long generations, especially in chain-of-thought reasoning. This concept links the dynamics of ICL with long-term stability challenges in generative models.

研究の動機と目的

  • 線形回帰タスクで重みを結合した線形トランスフォーマーにおける文脈内学習(ICL)を調査する。
  • 学習したパラメータにおける文脈内損失の最小化が相転換を誘発するかを分析する。
  • 異なるデータレジームの下でマーチンゲル(martingale)とランダムウォーク理論を用いてモデル崩壊を研究する。
  • 長い生成過程での文脈の劣化としての文脈崩壊の概念を導入する。

提案手法

  • 結合重みを持つ線形トランスフォーマーの前向き伝搬を事前条件付き勾配降下法に縮約する。
  • 最適な前条件子が勾配方向を回転させる非対称成分を含むことを示す。
  • 置換データレジームと累積データレジームの下で、線形回帰やガウスフィッティングなどの簡略化設定にマー チンゲルとランダムウォーク理論を適用する。
  • 崩壊現象に関するほぼ必然的収束結果を証明する。
  • ICLダイナミクスと長期的安定性の課題(生成モデルの安定性)との関係を特徴づける。

実験結果

リサーチクエスチョン

  • RQ1ICLを伴う線形トランスフォーマーの線形回帰タスクにおける文脈長は学習パラメータにどのような影響を与えるか?
  • RQ2文脈内損失の最小化は解の相転換と非対称成分の出現を引き起こすか?
  • RQ3線形回帰やガウスフィッティングのような簡略化設定では、異なるデータレジームの下でモデル崩壊はどのように現れるか?
  • RQ4データが十分に速く増加するか、時間とともに保持されない場合、崩壊は発生しない条件は何か?
  • RQ5文脈内学習ダイナミクスと長期生成時の安定性問題(文脈崩壊)との関係は何か?

主な発見

  • 文脈長が臨界閾値を超えると学習パラメータに相転換が生じる。
  • 分析対象の線形トランスフォーマーにおける最適前条件子は勾配方向を回転させる非対称成分を含む。
  • 置換データレジームと累積データレジームの下で、崩壊現象はマー チンゲルとランダムウォーク理論を用いてほぼ必然的収束結果とともに特徴付けられる。
  • 研究設定ではデータが十分に速く成長するか、時間とともに保持されない限り崩壊は発生する。
  • 新しい文脈崩壊の概念を導入し、ICLダイナミクスを長期的な生成モデルの安定性課題へ結びつける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。