Skip to main content
QUICK REVIEW

[논문 리뷰] Context Collapse: In-Context Learning and Model Collapse

Josef Ott|arXiv (Cornell University)|2026. 01. 01.
Domain Adaptation and Few-Shot Learning인용 수 0
한 줄 요약

대학원 석사 학위 논문으로, 대형 언어 모델에서 in-context 학습과 모델 붕괴를 연구하고, 선형 트랜스포머에서 위상 전이와 편대칭 성분 해를 보이며, 데이터 체계하에서 붕괴에 대한 거의 확실 수렴을 확립하고, 긴 생성 과정에서 맥락 붕괴의 개념을 도입한다.

ABSTRACT

This thesis investigates two key phenomena in large language models (LLMs): in-context learning (ICL) and model collapse. We study ICL in a linear transformer with tied weights trained on linear regression tasks, and show that minimising the in-context loss leads to a phase transition in the learned parameters. Above a critical context length, the solution develops a skew-symmetric component. We prove this by reducing the forward pass of the linear transformer under weight tying to preconditioned gradient descent, and then analysing the optimal preconditioner. This preconditioner includes a skew-symmetric component, which induces a rotation of the gradient direction. For model collapse, we use martingale and random walk theory to analyse simplified settings - linear regression and Gaussian fitting - under both replacing and cumulative data regimes. We strengthen existing results by proving almost sure convergence, showing that collapse occurs unless the data grows sufficiently fast or is retained over time. Finally, we introduce the notion of context collapse: a degradation of context during long generations, especially in chain-of-thought reasoning. This concept links the dynamics of ICL with long-term stability challenges in generative models.

연구 동기 및 목표

  • linear regression 태스크에서 결합된 가중치를 가진 선형 트랜스포머의 in-context 학습(ICL) 조사.
  • 학습된 매개변수에서 최소화된 in-context 손실이 위상 전이를 유도하는지 분석.
  • 다른 데이터 체계하에서 마팅게일 및 무작위 행위 이론을 활용하여 모델 붕괴를 연구.
  • 긴 생성 중 맥락 저하로서의 맥락 붕괴 개념 도입.

제안 방법

  • 가중치 tying이 있는 선형 트랜스포머의 순전파를 사전조건부 경사하강으로 축소 연구.
  • 최적의 사전조건자를 분석하여 경사 방향을 회전시키는 편대칭 구성요소가 포함되어 있음을 보임.
  • 대체(replacing) 및 누적(cumulative) 데이터 체계하에서 선형 회귀 및 가우시안 적합과 같은 단순화된 설정에 마팅게일 및 무작위 행위 이론을 적용.
  • 붕괴 현상에 대한 거의 확실 수렴 결과를 증명.
  • ICL 다이나믹과 생성 모형의 장기적 안정성 문제 간의 관계를 특징화.

실험 결과

연구 질문

  • RQ1ICL이 적용된 선형 회로에서 학습된 매개변수에 대한 맥락 길이의 효과는 무엇인가?
  • RQ2in-context 손실의 최소화가 위상 전이와 해의 편대칭 구성요소의 출현으로 이어지는가?
  • RQ3선형 회귀 및 가우시안 적합과 같은 단순화된 설정에서 서로 다른 데이터 체계하에서 모델 붕괴가 어떻게 발생하는가?
  • RQ4데이터가 충분히 빠르게 증가하거나 시간이 지남에 따라 보존되지 않으면 붕괴가 발생하지 않는 조건은 무엇인가?
  • RQ5in-context 학습 다이나믹과 긴 생성 중 안정성 문제(맥락 붕괴) 사이의 관계는 무엇인가?

주요 결과

  • 맥락 길이가 임계치를 넘을 때 학습 매개변수에 위상 전이가 발생한다.
  • 분석된 선형 트랜스포머에서 최적의 사전조건자는 경사 방향을 회전시키는 편대칭 구성요소를 포함한다.
  • 대체 데이터 체계와 누적 데이터 체계 모두에서 붕괴 현상은 마팅게일 및 무작위 행위 이론으로 특징지어질 수 있으며 거의 확실 수렴 결과가 존재한다.
  • 연구된 설정에서 데이터가 충분히 빠르게 증가하거나 시간이 지나도 보존되지 않으면 붕괴가 발생한다.
  • 새로운 맥락 붕괴 개념이 도입되어 ICL 다이나믹과 생성 모형의 장기적 안정성 문제를 연결한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.