Skip to main content
QUICK REVIEW

[論文レビュー] Pruned Adaptation Modules: A Simple yet Strong Baseline for Continual Foundation Models

Elif Ceren Gok Yildirim, Murat Onur Yildirim|arXiv (Cornell University)|Mar 22, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

PAM は事前学習済みResNetの大半を凍結し、スパースで剪定されたタスク特化の最後の層を追加することで継続学習を実現し、FMベースのベースラインよりもはるかに少ない訓練可能パラメータと総パラメータで高い精度を達成する。Fmベースの最先端 CIL 法より複数のベンチマークで一貫して上回る。

ABSTRACT

The continual learning literature has rapidly shifted from traditional class incremental learning (CIL) techniques to foundation model (FM)-based CIL methods without a clear understanding of how these newer approaches compare to strong, lightweight convolutional baselines. This abrupt transition has created a substantial methodological gap, making it difficult to assess whether recent FM-based CIL progress reflects genuine advances or merely the absence of rigorous baselines. To address this gap, we introduce Pruned Adaptation Modules (PAM), a simple yet effective method that freezes the vast majority of the pre-trained ResNet while enabling scalable continual adaptation through sparse task-specific layers. PAM yields up to a ~5x reduction in trainable parameters and a ~6x reduction in total parameters, significantly reducing the cost of continual updates. Across diverse benchmarks, PAM consistently mitigates catastrophic forgetting and outperforms state-of-the-art FM-based CIL approaches. Our findings position PAM as a strong and transparent baseline that helps bridge the gap between traditional and FM-based CIL, guiding future research for a more accurate assessment of true progress in continual adaptation. The code can be found at: https://github.com/ElifCerenGokYildirim/PAM.

研究の動機と目的

  • 従来の ConvNet ベースの継続学習と foundation-model ベースの方法のギャップを、軽量で強力な基準法を提供することで埋める。
  • ほとんどのバックボーンを凍結し、タスク特有の適応モジュールを剪定することによるパラメータ効率性を示す。
  • PAM が多様な CIL ベンチマークで競争力あるまたは優れた精度を達成しつつ、訓練可能パラメータと総パラメータの削減を実現する。

提案手法

  • 事前学習済み ResNet の最初の3層を共有特徴抽出器 Φ として凍結する。
  • 各タスクに対してタスク特有の適応モジュール γ_b と現在のタスクのクラスへ写す共通分類器 Wᵀ を付加する。
  • 最初の訓練エポック後に各 γ_b に対して構造的剪定を適用し、L1 ノルム感度 s_c = sum |W_c^i| に基づき最も情報量の少ないチャネルを削除する。
  • タスク b の訓練中は Φ と Wᵀ を固定のまま、剪定済み適応モジュール 𝒮_b に置換する。
  • 前知識を Φ に保持しつつ、交差エントロピー損失で 𝒮_b と Wᵀ のみを訓練する。
  • 推論時はすべてのタスクについて p_b(x_test) = σ(Wᵀ 𝒮_b(Φ(x_test))) を評価し、最も自信度の高い剪定モジュール 𝒮_b を選択して推定を行う。
Figure 1: PAM is a simple yet powerful bridge that challenges the progress in FM–based CIL. It achieves better accuracy with ResNets, which significantly reduces runtime and parameters.
Figure 1: PAM is a simple yet powerful bridge that challenges the progress in FM–based CIL. It achieves better accuracy with ResNets, which significantly reduces runtime and parameters.

実験結果

リサーチクエスチョン

  • RQ1小さなタスク特化モジュールを持つ剪定と凍結戦略は現代の FM ベース継続学習手法を上回ることができるか?
  • RQ2剪定スケジュールと剪定量が PAM の性能とパラメータ効率に及ぼす影響は?
  • RQ3PAM はデータセットやバックボーンサイズを跨いでどの程度スケールするか、暗黙のタスク識別を用いた場合にタスクインクリメンタルの上限にどれだけ近づくか?

主な発見

MethodTrainable Params Per TaskTotal Params After All TasksFinal Accuracy [%]
L2P300 K92 M80.06 ± 1.1
DualPrompt600 K98 M79.92 ± 0.4
CODA-Prompt3 M146 M81.46 ± 0.3
APER-Adapter100 K86 M84.91 ± 0.2
EASE1.2 M110 M85.97 ± 0.6
PAM (RN18)600 K15 M88.51 ± 3.4
PAM (RN50)600 K21 M92.50 ± 2.1
PAM (RN101)600 K40 M93.05 ± 1.7
PAM (RN152)600 K56 M93.79 ± 1.7
  • PAM は最先端の FMベース CIL 法と比べて訓練可能パラメータを最大で 2–5x、総パラメータを 2–6x 削減する。
  • PAM は CIFAR-100、CUB-200、ImageNet-R、Cars-196 のベンチマークでアダプター型・プロンプト型手法を一貫して上回る。
  • バックボーンに ResNet152 (RN152) を使用すると、Cars で 93.79%、ImageNet-R で 93.05%、他の設定でも 93.03%+ の最終精度を達成し、長いタスク列でも安定性が高い。
  • PAM の単一モジュール推論(最も自信度の高い 𝒮_b)はしばしばアンサンブル戦略を上回り、ImageNet-R のような難易度の高いデータセットでタスク数が増えても堅牢性を維持する。
  • RN バックボーンを用いた場合、PAM はタスクあたりの訓練可能パラメータをはるかに少なく(600K)、総パラメータも最大で 56M(RN152)となり、ViT ベースのベースラインに対して競争力のあるまたは優れた最終精度を達成する。
  • アブレーションでは初期剪定(エポック1)と剪定量が約 0.96 程度が最良であり、推論時の信頼度ベースのモジュール選択が距離ベース戦略より優れていることを示す。
Figure 2: PAM freezes the first three layers of a pre-trained ResNet to preserve general knowledge while dynamically adding a task-specific last layer for each new task. To improve parameter efficiency, each last layer is structurally pruned to become ‘slim’ before training on its corresponding task
Figure 2: PAM freezes the first three layers of a pre-trained ResNet to preserve general knowledge while dynamically adding a task-specific last layer for each new task. To improve parameter efficiency, each last layer is structurally pruned to become ‘slim’ before training on its corresponding task

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。