Skip to main content
QUICK REVIEW

[論文レビュー] Context Channel Capacity: An Information-Theoretic Framework for Understanding Catastrophic Forgetting

Ran Cheng|arXiv (Cornell University)|Mar 8, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

本研究は連続学習における壊滅的忘却を説明する情報理論的枠組み Context Channel Capacity (C_ctx) を提案し、逐次状態ベース学習器の不可能性三角形を証明、文脈からパラメータを生成する HyperNetworks が三角形を回避できることを示し、Split-MNIST で強力な実証的検証を行う。

ABSTRACT

Catastrophic forgetting remains a central challenge in continual learning (CL), yet lacks a unified information-theoretic explanation for why some architectures forget catastrophically while others do not. We introduce \emph{Context Channel Capacity} ($C_\mathrm{ctx}$), the mutual information between a CL architecture's context signal and its generated parameters, and prove that zero forgetting requires $C_\mathrm{ctx} \geq H(T)$, where $H(T)$ is the task identity entropy. We establish an \emph{Impossibility Triangle} -- zero forgetting, online learning, and finite parameters cannot be simultaneously satisfied by sequential state-based learners -- and show that conditional regeneration architectures (HyperNetworks) bypass this triangle by redefining parameters as function values rather than states. We validate this framework across 8 CL methods on Split-MNIST (1,130+ experiments over 86 days, 4 seeds each), showing that $C_\mathrm{ctx}$ perfectly predicts forgetting behavior: methods with $C_\mathrm{ctx} = 0$ (NaiveSGD, EWC, SI, LwF, CFlow) exhibit catastrophic forgetting (6--97\%), while methods with $C_\mathrm{ctx} \approx 1$ (HyperNetwork) achieve zero forgetting (98.8\% ACC). We further propose \emph{Wrong-Context Probing} (P5), a practical diagnostic protocol for measuring $C_\mathrm{ctx}$, and extend the framework to CIFAR-10 via a novel \emph{Gradient Context Encoder} that closes the oracle gap from 23.3pp to 0.7pp. A systematic taxonomy of 15+ closed research directions -- including the Hebbian null result (frozen random features outperform learned features), CFlow's $θ_0$-memorizer phenomenon, and the $S_N$ symmetry barrier to column specialization -- provides the community with precisely diagnosed negative results. Our central design principle: \emph{architecture over algorithm} -- the context pathway must be structurally unbypassable.

研究の動機と目的

  • 連続学習 (CL) における壊滅的忘却を情報理論的枠組みの下で動機付け・形式化する。
  • Context Channel Capacity (C_ctx) を CL アーキテクチャのコンテキストと生成パラメータとの間の相互情報として定義する。
  • 忘却がゼロになるためには C_ctx ≥ H(T) が必要であることを証明し、逐次的状態ベース学習器の不可能性三角形を確立する。
  • CL アーキテクチャを C_ctx レジームに基づいて分類し、条件再生成(HyperNetworks) が三角形をどう回避するかを示す。
  • Split-MNIST 上で複数の CL 手法を横断して実証的検証を行い、診断ツールとして Wrong-Context Probing を導入する。

提案手法

  • 継続的学習を causality 制約を伴うオンライン符号化として formalize する。
  • Context Channel Capacity C_ctx = max_P(c) I(c; θ(c)) を導入し、CCC バウンドを介して忘却における役割を証明する。
  • 不可能性三角形を証明する:ゼロ忘却、オンライン学習、パラメータの有界性は逐次的状態ベース学習器に対して同時に成り立ち得ない。
  • C_ctx に基づく CL アーキテクチャを State Protection (C_ctx=0)、State Transformation (C_ctx≈0)、Conditional Regeneration (C_ctx≫H(T)) の三つのパラダイムに分類する。
  • Wrong-Context Probing (P5) を C_ctx を測る現実的な代替指標として実証する。
  • Split-MNIST 上で 8 手法を横断して経験的検証を行い(1,130+ 実験)、CIFAR-10 へも Gradient Context Encoder を用いて枠組みを拡張する。
(a) Neuron activation overlap (Jaccard index) across tasks. Output layer overlap $=0.947$ ; hidden layers $>0.60$ . Virtually all neurons are shared.
(a) Neuron activation overlap (Jaccard index) across tasks. Output layer overlap $=0.947$ ; hidden layers $>0.60$ . Virtually all neurons are shared.

実験結果

リサーチクエスチョン

  • RQ1連続学習システムが壊滅的に忘れるかどうかを決定づけるアーキテクチャ的性質は何か。
  • RQ2情報理論的量子である C_ctx は多様な CL 手法間で忘却を予測できるか。
  • RQ3不可能性三角形は異なる CL パラダイム(State Protection、State Transformation、Conditional Regeneration)でどう現れるか。
  • RQ4実用的な診断(P5)はアーキテクチャ間で C_ctx を信頼性高く代理測定できるか。
  • RQ5HyperNetworks はどの程度忘却を回避でき、どの条件下でそうなるか。

主な発見

ParadigmMethodACC (%) ↑Fgt (%) ↓P5 Δ\hat{C}_{ctx}
State Protection ( C_ctx=0 )NaiveSGD18.7±0.397.1±0.40.00.000
State Protection ( C_ctx=0 )EWC18.9±0.197.6±0.60.00.000
State Protection ( C_ctx=0 )SI16.4±3.797.1±0.40.00.000
State Protection ( C_ctx=0 )LwF24.2±0.654.8±5.50.00.000
Replay ( C_ctx=0 )Experience Replay85.9±1.312.5±1.70.00.000
State Transformation ( C_ctx≈0 )CFlow (ODE)92.4±0.76.1±1.10.00.000
Conditional Regeneration ( C_ctx≫H(T) )HyperNet Oracle98.8±0.30.0±0.0-97.60.976
Conditional Regeneration ( C_ctx≫H(T) )HyperNet Learned98.9±0.20.0±0.0-95.20.952
  • Context Channel Capacity (C_ctx) は忘却の挙動を予測する:C_ctx=0 の手法は壊滅的に忘れ、C_ctx≫H(T) の手法は忘却ゼロを達成できる。
  • 不可能性三角形が存在する:ゼロ忘却、オンライン学習、適切なパラメータの束縛は逐次的状態ベース学習器では同時に成り立たない。
  • HyperNetworks は状態を更新する代わりに文脈からパラメータを再生成することで三角形を実質的に回避し、ほぼゼロ忘却を達成する。
  • Wrong-Context Probing (P5) は C_ctx を測定する経験的診断を提供する。
  • Split-MNIST では HyperNetworks が約 98.8–98.9% ACC を達成し忘却はほとんどなく、一方従来手法は約 18–25% ACC 範囲にとどまり大きな忘却を伴う。
  • CFC マッピングは Context が入力されても C_ctx が実質的に 0 であることを示し、構造的回避の問題を示す。
  • この枠組みは CIFAR-10 へ拡張され、Gradient Context Encoder により oracle-gap が大幅に減少する。
(b) Template cosine similarity: inter-task ( $0.751$ ) $>$ intra-task ( $0.737$ ). Templates are more similar across tasks than within tasks—the opposite of specialization.
(b) Template cosine similarity: inter-task ( $0.751$ ) $>$ intra-task ( $0.737$ ). Templates are more similar across tasks than within tasks—the opposite of specialization.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。