[논문 리뷰] Hierarchical Decomposition of Prompt-Based Continual Learning: Rethinking Obscured Sub-optimality
이 논문은 HiDe-Prompt를 도입하여 프롬프트 기반의 지속적 학습에서 작업 내 예측, 작업 식별 추론, 작업 적응 예측을 명시적으로 최적화하는 계층적 분해 접근법을 제시하며, 자기지도 사전학습 하에서 최첨단 결과를 달성합니다.
Prompt-based continual learning is an emerging direction in leveraging pre-trained knowledge for downstream continual learning, and has almost reached the performance pinnacle under supervised pre-training. However, our empirical research reveals that the current strategies fall short of their full potential under the more realistic self-supervised pre-training, which is essential for handling vast quantities of unlabeled data in practice. This is largely due to the difficulty of task-specific knowledge being incorporated into instructed representations via prompt parameters and predicted by uninstructed representations at test time. To overcome the exposed sub-optimality, we conduct a theoretical analysis of the continual learning objective in the context of pre-training, and decompose it into hierarchical components: within-task prediction, task-identity inference, and task-adaptive prediction. Following these empirical and theoretical insights, we propose Hierarchical Decomposition (HiDe-)Prompt, an innovative approach that explicitly optimizes the hierarchical components with an ensemble of task-specific prompts and statistics of both uninstructed and instructed representations, further with the coordination of a contrastive regularization strategy. Our extensive experiments demonstrate the superior performance of HiDe-Prompt and its robustness to pre-training paradigms in continual learning (e.g., up to 15.01% and 9.61% lead on Split CIFAR-100 and Split ImageNet-R, respectively). Our code is available at \url{https://github.com/thu-ml/HiDe-Prompt}.
연구 동기 및 목표
- realistic self-supervised 사전학습 설정에서 프롬프트 기반 지속적 학습 연구를 자극한다.
- 지속적 학습 목표를 내부-작업 예측, 작업 아이덴티티 추론, 작업 적응 예측의 계층적 구성 요소로 이론적으로 분해한다.
- 작업별 프롬프트 및 표현 통계치를 사용하여 계층적 구성 요소를 명시적으로 최적화하기 위해 HiDe-Prompt를 제안한다.
- 계층적 구성 요소를 조정하기 위한 대조 규제 전략을 도입한다.
- 사전학습 패러다임에 대한 강건성을 보이며 여러 벤치마크에서 실질적 이득을 입증한다.
제안 방법
- 문제는 얼음 재현(리허설 없이) 지속적 학습으로 설정되며, 고정된 프리트레인 백본과 작업별 프롬프트가 사용된다.
- 프롬프트 기반 접근법(ProT 대 PreT)을 검토 및 비교하며, 작업 아이덴티티가 비지도적 표현으로부터 어떻게 추론되는지 강조한다.
- HiDe-Prompt는 작업별 프롬프트 풀을 확장하고 프롬프트 앙상블을 사용하여 새로운 작업으로 지식을 전달하고 망각을 완화한다.
- WTP, TII, TAP는 각각 전용 가지(branch)를 통해 최적화된다: WTP는 오래된 작업 통계치를 활용한 대조 규제 항을 포함한 교차 엔트로피를 사용한다; TII는 비지도 표현으로부터 작업 아이덴티티를 예측하기 위한 보조 지속적 적응 출력 레이어를 사용한다; TAP는 모든 학습된 클래스로 적응된 출력 헤드를 사용한다.
- 각 클래스에 대한 표현은 분포 기반 예측을 가능하게 하는 가우시안 중심의 통계 모델로 표현되며, 계층적 최적화를 이끄는 교차 엔트로피 손실 H_WTP, H_TII, H_TAP가 제시된 식(6–12)을 따른다.
- 테스트 시점에는 보조 TII 경로를 통해 작업 아이덴티티를 선택한 후 작업별 프롬프트를 이용해 레이블을 예측한다.
실험 결과
연구 질문
- RQ1사전학습 패러다임(자기지도 대 지도학습)이 프롬프트 기반 지속적 학습의 효과에 어떤 영향을 미치는가?
- RQ2자체계 계층적 분해(WTP, TII, TAP)가 자기지도 사전학습 하에서 더 나은 성능으로 이어질 수 있는가?
- RQ3작업별 프롬프트를 어떻게 조직하고 규제하여 악몽 같은 망각을 피하면서 지식 전달을 가능하게 할 수 있는가?
- RQ4비지도/지도 표현을 통계적으로 모델링(예: 가우시안)하는 것이 작업 식별 및 과제 간 클래스 예측에 효과적일 수 있는가?
주요 결과
| PTM | 방법 | Split CIFAR-100 FAA | Split CIFAR-100 CAA | Split CIFAR-100 FFM | Split ImageNet-R FAA | Split ImageNet-R CAA | Split ImageNet-R FFM |
|---|---|---|---|---|---|---|---|
| Sup-21K | HiDe-Prompt (Ours) | 92.61 ± 0.28 | 94.03 ± 0.01 | 3.16 ± 0.10 | 75.06 ± 0.12 | 76.60 ± 0.01 | 2.17 ± 0.19 |
| Sup-21K | L2P [41] | 83.06 ± 0.17 | 88.25 ± 0.01 | 6.58 ± 0.40 | 63.65 ± 0.12 | 67.25 ± 0.02 | 7.51 ± 0.17 |
| Sup-21K | DualPrompt [40] | 86.60 ± 0.19 | 90.64 ± 0.01 | 4.45 ± 0.16 | 68.79 ± 0.31 | 71.96 ± 0.04 | 4.49 ± 0.14 |
| Sup-21K | S-Prompt++ [39] | 88.81 ± 0.18 | 92.25 ± 0.03 | 3.87 ± 0.05 | 69.68 ± 0.12 | 72.50 ± 0.04 | 3.29 ± 0.05 |
| Sup-21K | CODA-Prompt [30] ∗ | 86.94 ± 0.63 | 91.57 ± 0.75 | 4.04 ± 0.18 | 70.03 ± 0.47 | 74.26 ± 0.24 | 5.17 ± 0.22 |
| iBOT-21K | HiDe-Prompt (Ours) | 93.02 ± 0.15 | 94.56 ± 0.05 | 1.33 ± 0.24 | 70.83 ± 0.17 | 73.23 ± 0.08 | 2.46 ± 0.21 |
| iBOT-21K | L2P [41] | 79.00 ± 0.28 | 85.13 ± 0.05 | 5.55 ± 0.36 | 55.35 ± 0.28 | 58.62 ± 0.05 | 3.73 ± 0.53 |
| iBOT-21K | DualPrompt [40] | 78.76 ± 0.23 | 86.16 ± 0.02 | 9.84 ± 0.24 | 54.55 ± 0.53 | 58.69 ± 0.01 | 5.38 ± 0.70 |
| iBOT-21K | S-Prompt++ [39] | 79.14 ± 0.65 | 85.85 ± 0.17 | 9.17 ± 1.33 | 55.16 ± 0.83 | 58.48 ± 0.18 | 4.07 ± 0.16 |
| iBOT-21K | CODA-Prompt [30] | 80.83 ± 0.27 | 87.02 ± 0.20 | 7.50 ± 0.25 | 61.22 ± 0.35 | 66.76 ± 0.37 | 9.66 ± 0.20 |
| iBOT-21K | HiDe-Prompt (Ours) | 93.68 ± 0.15 | 94.56 ± 0.05 | 1.21 ± 0.24 | 71.33 ± 0.21 | 73.62 ± 0.13 | 2.79 ± 0.26 |
| iBOT-1K | HiDe-Prompt (Ours) | 93.48 ± 0.11 | 95.02 ± 0.01 | 1.00 ± 0.24 | 71.33 ± 0.21 | 73.62 ± 0.13 | 2.79 ± 0.26 |
| iBOT-1K | L2P [41] | 75.57 ± 0.41 | 82.69 ± 0.06 | 7.23 ± 0.93 | 60.97 ± 0.26 | 65.95 ± 0.02 | 4.07 ± 0.66 |
| iBOT-1K | DualPrompt [40] | 76.63 ± 0.05 | 85.08 ± 0.12 | 8.41 ± 0.40 | 61.51 ± 1.05 | 67.11 ± 0.08 | 5.02 ± 0.52 |
| iBOT-1K | S-Prompt++ [39] | 77.53 ± 0.56 | 85.66 ± 0.16 | 8.07 ± 0.97 | 60.82 ± 0.68 | 66.03 ± 0.91 | 4.16 ± 0.14 |
| iBOT-1K | CODA-Prompt [30] | 79.11 ± 1.02 | 86.21 ± 0.49 | 7.69 ± 1.57 | 66.56 ± 0.68 | 73.14 ± 0.57 | 7.22 ± 0.38 |
| iBOT-1K | HiDe-Prompt (Ours) | 93.56 ± 0.12 | 94.95 ± 0.04 | 1.12 ± 0.21 | 71.21 ± 0.20 | 73.50 ± 0.12 | 2.65 ± 0.25 |
| DINO-1K | HiDe-Prompt (Ours) | 92.51 ± 0.11 | 94.25 ± 0.01 | 0.99 ± 0.21 | 68.11 ± 0.18 | 71.70 ± 0.01 | 3.11 ± 0.17 |
| MoCo-1K | HiDe-Prompt (Ours) | 91.57 ± 0.20 | 93.70 ± 0.01 | 1.19 ± 0.18 | 63.77 ± 0.49 | 68.26 ± 0.01 | 3.57 ± 0.96 |
- 프롬프트 기반 지속적 학습은 계층적 조정 없이 프롬프트만 최적화하면 자기지도 사전학습 하에서 성능이 저하된다.
- HiDe-Prompt는 Spllit CIFAR-100 및 Split ImageNet-R 등 다양한 사전학습 패러다임 하에서 벤치마크를 넘어선 최첨단 결과를 달성한다.
- HiDe-Prompt는 강력한 Baseline 대비 최대 15.01% FAA 리드 및 9.61% Split ImageNet-R 개선 등으로 상당한 이득을 보여준다.
- 프롬프트 앙상블과 오래된 작업 통계치를 활용한 작업별 프롬프트의 조합과 대조 규제가 WTP를 향상시키고 TAP를 오래된 작업에 정렬시킨다.
- 보조 TII와 적응된 TAP 헤드는 작업 간 아이덴티티 추론 및 클래스 예측을 지속적으로 개선하여 CIL 성능에 기여한다.
- Sup-21K, iBOT-21K, iBOT-1K, DINO-1K, MoCo-1K 등의 PTM에서 HiDe-Prompt는 일관되게 L2P, DualPrompt, S-Prompt++, CODA-Prompt보다 우수하다(표 1 참조).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.