[論文レビュー] Hierarchical Decomposition of Prompt-Based Continual Learning: Rethinking Obscured Sub-optimality
本論文は HiDe-Prompt を提案する。階層的分解アプローチで、プロンプトベースの継続学習におけるタスク内予測、タスク識別の推定、タスク適応予測を明示的に最適化し、自 supervision-self pre-training の下で最先端の結果を達成する。
Prompt-based continual learning is an emerging direction in leveraging pre-trained knowledge for downstream continual learning, and has almost reached the performance pinnacle under supervised pre-training. However, our empirical research reveals that the current strategies fall short of their full potential under the more realistic self-supervised pre-training, which is essential for handling vast quantities of unlabeled data in practice. This is largely due to the difficulty of task-specific knowledge being incorporated into instructed representations via prompt parameters and predicted by uninstructed representations at test time. To overcome the exposed sub-optimality, we conduct a theoretical analysis of the continual learning objective in the context of pre-training, and decompose it into hierarchical components: within-task prediction, task-identity inference, and task-adaptive prediction. Following these empirical and theoretical insights, we propose Hierarchical Decomposition (HiDe-)Prompt, an innovative approach that explicitly optimizes the hierarchical components with an ensemble of task-specific prompts and statistics of both uninstructed and instructed representations, further with the coordination of a contrastive regularization strategy. Our extensive experiments demonstrate the superior performance of HiDe-Prompt and its robustness to pre-training paradigms in continual learning (e.g., up to 15.01% and 9.61% lead on Split CIFAR-100 and Split ImageNet-R, respectively). Our code is available at \url{https://github.com/thu-ml/HiDe-Prompt}.
研究の動機と目的
- 現実的な自己教師付き事前学習設定の下でプロンプトベースの継続学習の研究を動機づける。
- 継続学習の目的を理論的に階層的な要素に分解する:タスク内予測、タスク識別推定、タスク適応予測。
- HiDe-Prompt を提案し、階層的要素をタスク固有のプロンプトと表現統計を用いて明示的に最適化する。
- 階層的要素を調整する対照的正則化戦略を導入する。
- 事前学習パラダイムに頑健な複数のベンチマークで実証的な利得を示す。
提案手法
- 問題設定は、凍結済みの事前学習バックボーンとタスク特有のプロンプトを用いたリハーサル不要の継続学習として定式化される。
- プロンプトベースのアプローチ(ProT 対 PreT)をレビュー・比較し、タスク識別が uninstructed 表現から推定されることを強調する。
- HiDe-Prompt はタスク固有のプロンプトプールを拡張し、プロンプトアンサンブルを用いて新しいタスクへ知識を転移し忘却を抑制する。
- WTP、TII、TAP は専用ブランチで最適化される:WTP は古いタスク統計量を利用した対照正則化項を伴うクロスエントロピーを使用、TII は uninstructed 表現からタスク識別を予測する補助的に継続適応する出力層を使用、TAP は全ての見たクラスに適応した出力ヘッドを使用。
- 各クラスの表現は分布ベースの予測を可能にするよう統計的にモデル化される(ガウシアン中心)。クロスエントロピー損失 H_WTP、H_TII、H_TAP が階層的最適化を導く(式6–12)。
- テスト時には、補助的 TII 経路でタスク識別を選択し、その後タスク特有のプロンプトでラベルを予測する。)
実験結果
リサーチクエスチョン
- RQ1自己教師付きと監督付きのどちらの事前学習パラダイムがプロンプトベースの継続学習の有効性に影響を与えるか?
- RQ2継続学習の目的を階層的に分解(WTP、TII、TAP)することで自己教師付き事前学習下でより良い性能を得られるか?
- RQ3タスク特異的プロンプトをどのように整理・正則化して壊滅的忘却を回避しつつ知識転移を可能にするか?
- RQ4 uninstructed/instructed 表現を統計的に(例:ガウシアン)モデル化することでタスク間でのタスク識別とクラス予測を効果的に実現できるか?
主な発見
| PTM | 手法 | Split CIFAR-100 FAA | Split CIFAR-100 CAA | Split CIFAR-100 FFM | Split ImageNet-R FAA | Split ImageNet-R CAA | Split ImageNet-R FFM |
|---|---|---|---|---|---|---|---|
| Sup-21K | HiDe-Prompt (Ours) | 92.61 ± 0.28 | 94.03 ± 0.01 | 3.16 ± 0.10 | 75.06 ± 0.12 | 76.60 ± 0.01 | 2.17 ± 0.19 |
| Sup-21K | L2P [41] | 83.06 ± 0.17 | 88.25 ± 0.01 | 6.58 ± 0.40 | 63.65 ± 0.12 | 67.25 ± 0.02 | 7.51 ± 0.17 |
| Sup-21K | DualPrompt [40] | 86.60 ± 0.19 | 90.64 ± 0.01 | 4.45 ± 0.16 | 68.79 ± 0.31 | 71.96 ± 0.04 | 4.49 ± 0.14 |
| Sup-21K | S-Prompt++ [39] | 88.81 ± 0.18 | 92.25 ± 0.03 | 3.87 ± 0.05 | 69.68 ± 0.12 | 72.50 ± 0.04 | 3.29 ± 0.05 |
| Sup-21K | CODA-Prompt [30] ∗ | 86.94 ± 0.63 | 91.57 ± 0.75 | 4.04 ± 0.18 | 70.03 ± 0.47 | 74.26 ± 0.24 | 5.17 ± 0.22 |
| iBOT-21K | HiDe-Prompt (Ours) | 93.02 ± 0.15 | 94.56 ± 0.05 | 1.33 ± 0.24 | 70.83 ± 0.17 | 73.23 ± 0.08 | 2.46 ± 0.21 |
| iBOT-21K | L2P [41] | 79.00 ± 0.28 | 85.13 ± 0.05 | 5.55 ± 0.36 | 55.35 ± 0.28 | 58.62 ± 0.05 | 3.73 ± 0.53 |
| iBOT-21K | DualPrompt [40] | 78.76 ± 0.23 | 86.16 ± 0.02 | 9.84 ± 0.24 | 54.55 ± 0.53 | 58.69 ± 0.01 | 5.38 ± 0.70 |
| iBOT-21K | S-Prompt++ [39] | 79.14 ± 0.65 | 85.85 ± 0.17 | 9.17 ± 1.33 | 55.16 ± 0.83 | 58.48 ± 0.18 | 4.07 ± 0.16 |
| iBOT-21K | CODA-Prompt [30] | 80.83 ± 0.27 | 87.02 ± 0.20 | 7.50 ± 0.25 | 61.22 ± 0.35 | 66.76 ± 0.37 | 9.66 ± 0.20 |
| iBOT-21K | HiDe-Prompt (Ours) | 93.68 ± 0.15 | 94.56 ± 0.05 | 1.21 ± 0.24 | 71.33 ± 0.21 | 73.62 ± 0.13 | 2.79 ± 0.26 |
| iBOT-1K | HiDe-Prompt (Ours) | 93.48 ± 0.11 | 95.02 ± 0.01 | 1.00 ± 0.24 | 71.33 ± 0.21 | 73.62 ± 0.13 | 2.79 ± 0.26 |
| iBOT-1K | L2P [41] | 75.57 ± 0.41 | 82.69 ± 0.06 | 7.23 ± 0.93 | 60.97 ± 0.26 | 65.95 ± 0.02 | 4.07 ± 0.66 |
| iBOT-1K | DualPrompt [40] | 76.63 ± 0.05 | 85.08 ± 0.12 | 8.41 ± 0.40 | 61.51 ± 1.05 | 67.11 ± 0.08 | 5.02 ± 0.52 |
| iBOT-1K | S-Prompt++ [39] | 77.53 ± 0.56 | 85.66 ± 0.16 | 8.07 ± 0.97 | 60.82 ± 0.68 | 66.03 ± 0.91 | 4.16 ± 0.14 |
| iBOT-1K | CODA-Prompt [30] | 79.11 ± 1.02 | 86.21 ± 0.49 | 7.69 ± 1.57 | 66.56 ± 0.68 | 73.14 ± 0.57 | 7.22 ± 0.38 |
| iBOT-1K | HiDe-Prompt (Ours) | 93.56 ± 0.12 | 94.95 ± 0.04 | 1.12 ± 0.21 | 71.21 ± 0.20 | 73.50 ± 0.12 | 2.65 ± 0.25 |
| DINO-1K | HiDe-Prompt (Ours) | 92.51 ± 0.11 | 94.25 ± 0.01 | 0.99 ± 0.21 | 68.11 ± 0.18 | 71.70 ± 0.01 | 3.11 ± 0.17 |
| MoCo-1K | HiDe-Prompt (Ours) | 91.57 ± 0.20 | 93.70 ± 0.01 | 1.19 ± 0.18 | 63.77 ± 0.49 | 68.26 ± 0.01 | 3.57 ± 0.96 |
- プロンプトベースの継続学習は、階層的な協調なしにプロンプトだけを最適化すると自己教師付き事前学習下で性能が低下する。
- HiDe-Prompt は、Split CIFAR-100 や Split ImageNet-R などのベンチマークで、さまざまな事前学習パラダイム下で最先端の結果を達成する。
- HiDe-Prompt は、強力なベースラインと比較して、Split CIFAR-100 で FAA リード最大 15.01%、Split ImageNet-R で 9.61% の改善を示す。
- タスク固有プロンプトのアンサンブルと古いタスク統計量、対照正則化の組み合わせにより WTP が改善され、TAP が古いタスクに整合する。
- 補助的 TII と適応された TAP ヘッドは一貫してタスク間の識別推定とクラス予測を改善し、CIL パフォーマンスを向上させる。
- Sup-21K, iBOT-21K, iBOT-1K, DINO-1K, MoCo-1K などの PTM で、HiDe-Prompt は一貫して L2P、DualPrompt、S-Prompt++、CODA-Prompt を上回る(表1参照)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。