QUICK REVIEW

[논문 리뷰] Hierarchical Decomposition of Prompt-Based Continual Learning: Rethinking Obscured Sub-optimality

Liyuan Wang, Jingyi Xie|arXiv (Cornell University)|2023. 10. 11.

Domain Adaptation and Few-Shot Learning인용 수 18

한 줄 요약

이 논문은 HiDe-Prompt를 도입하여 프롬프트 기반의 지속적 학습에서 작업 내 예측, 작업 식별 추론, 작업 적응 예측을 명시적으로 최적화하는 계층적 분해 접근법을 제시하며, 자기지도 사전학습 하에서 최첨단 결과를 달성합니다.

ABSTRACT

Prompt-based continual learning is an emerging direction in leveraging pre-trained knowledge for downstream continual learning, and has almost reached the performance pinnacle under supervised pre-training. However, our empirical research reveals that the current strategies fall short of their full potential under the more realistic self-supervised pre-training, which is essential for handling vast quantities of unlabeled data in practice. This is largely due to the difficulty of task-specific knowledge being incorporated into instructed representations via prompt parameters and predicted by uninstructed representations at test time. To overcome the exposed sub-optimality, we conduct a theoretical analysis of the continual learning objective in the context of pre-training, and decompose it into hierarchical components: within-task prediction, task-identity inference, and task-adaptive prediction. Following these empirical and theoretical insights, we propose Hierarchical Decomposition (HiDe-)Prompt, an innovative approach that explicitly optimizes the hierarchical components with an ensemble of task-specific prompts and statistics of both uninstructed and instructed representations, further with the coordination of a contrastive regularization strategy. Our extensive experiments demonstrate the superior performance of HiDe-Prompt and its robustness to pre-training paradigms in continual learning (e.g., up to 15.01% and 9.61% lead on Split CIFAR-100 and Split ImageNet-R, respectively). Our code is available at \url{https://github.com/thu-ml/HiDe-Prompt}.

연구 동기 및 목표

realistic self-supervised 사전학습 설정에서 프롬프트 기반 지속적 학습 연구를 자극한다.
지속적 학습 목표를 내부-작업 예측, 작업 아이덴티티 추론, 작업 적응 예측의 계층적 구성 요소로 이론적으로 분해한다.
작업별 프롬프트 및 표현 통계치를 사용하여 계층적 구성 요소를 명시적으로 최적화하기 위해 HiDe-Prompt를 제안한다.
계층적 구성 요소를 조정하기 위한 대조 규제 전략을 도입한다.
사전학습 패러다임에 대한 강건성을 보이며 여러 벤치마크에서 실질적 이득을 입증한다.

제안 방법

문제는 얼음 재현(리허설 없이) 지속적 학습으로 설정되며, 고정된 프리트레인 백본과 작업별 프롬프트가 사용된다.
프롬프트 기반 접근법(ProT 대 PreT)을 검토 및 비교하며, 작업 아이덴티티가 비지도적 표현으로부터 어떻게 추론되는지 강조한다.
HiDe-Prompt는 작업별 프롬프트 풀을 확장하고 프롬프트 앙상블을 사용하여 새로운 작업으로 지식을 전달하고 망각을 완화한다.
WTP, TII, TAP는 각각 전용 가지(branch)를 통해 최적화된다: WTP는 오래된 작업 통계치를 활용한 대조 규제 항을 포함한 교차 엔트로피를 사용한다; TII는 비지도 표현으로부터 작업 아이덴티티를 예측하기 위한 보조 지속적 적응 출력 레이어를 사용한다; TAP는 모든 학습된 클래스로 적응된 출력 헤드를 사용한다.
각 클래스에 대한 표현은 분포 기반 예측을 가능하게 하는 가우시안 중심의 통계 모델로 표현되며, 계층적 최적화를 이끄는 교차 엔트로피 손실 H_WTP, H_TII, H_TAP가 제시된 식(6–12)을 따른다.
테스트 시점에는 보조 TII 경로를 통해 작업 아이덴티티를 선택한 후 작업별 프롬프트를 이용해 레이블을 예측한다.

실험 결과

연구 질문

RQ1사전학습 패러다임(자기지도 대 지도학습)이 프롬프트 기반 지속적 학습의 효과에 어떤 영향을 미치는가?
RQ2자체계 계층적 분해(WTP, TII, TAP)가 자기지도 사전학습 하에서 더 나은 성능으로 이어질 수 있는가?
RQ3작업별 프롬프트를 어떻게 조직하고 규제하여 악몽 같은 망각을 피하면서 지식 전달을 가능하게 할 수 있는가?
RQ4비지도/지도 표현을 통계적으로 모델링(예: 가우시안)하는 것이 작업 식별 및 과제 간 클래스 예측에 효과적일 수 있는가?

주요 결과

PTM	방법	Split CIFAR-100 FAA	Split CIFAR-100 CAA	Split CIFAR-100 FFM	Split ImageNet-R FAA	Split ImageNet-R CAA	Split ImageNet-R FFM
Sup-21K	HiDe-Prompt (Ours)	92.61 ± 0.28	94.03 ± 0.01	3.16 ± 0.10	75.06 ± 0.12	76.60 ± 0.01	2.17 ± 0.19
Sup-21K	L2P [41]	83.06 ± 0.17	88.25 ± 0.01	6.58 ± 0.40	63.65 ± 0.12	67.25 ± 0.02	7.51 ± 0.17
Sup-21K	DualPrompt [40]	86.60 ± 0.19	90.64 ± 0.01	4.45 ± 0.16	68.79 ± 0.31	71.96 ± 0.04	4.49 ± 0.14
Sup-21K	S-Prompt++ [39]	88.81 ± 0.18	92.25 ± 0.03	3.87 ± 0.05	69.68 ± 0.12	72.50 ± 0.04	3.29 ± 0.05
Sup-21K	CODA-Prompt [30] ∗	86.94 ± 0.63	91.57 ± 0.75	4.04 ± 0.18	70.03 ± 0.47	74.26 ± 0.24	5.17 ± 0.22
iBOT-21K	HiDe-Prompt (Ours)	93.02 ± 0.15	94.56 ± 0.05	1.33 ± 0.24	70.83 ± 0.17	73.23 ± 0.08	2.46 ± 0.21
iBOT-21K	L2P [41]	79.00 ± 0.28	85.13 ± 0.05	5.55 ± 0.36	55.35 ± 0.28	58.62 ± 0.05	3.73 ± 0.53
iBOT-21K	DualPrompt [40]	78.76 ± 0.23	86.16 ± 0.02	9.84 ± 0.24	54.55 ± 0.53	58.69 ± 0.01	5.38 ± 0.70
iBOT-21K	S-Prompt++ [39]	79.14 ± 0.65	85.85 ± 0.17	9.17 ± 1.33	55.16 ± 0.83	58.48 ± 0.18	4.07 ± 0.16
iBOT-21K	CODA-Prompt [30]	80.83 ± 0.27	87.02 ± 0.20	7.50 ± 0.25	61.22 ± 0.35	66.76 ± 0.37	9.66 ± 0.20
iBOT-21K	HiDe-Prompt (Ours)	93.68 ± 0.15	94.56 ± 0.05	1.21 ± 0.24	71.33 ± 0.21	73.62 ± 0.13	2.79 ± 0.26
iBOT-1K	HiDe-Prompt (Ours)	93.48 ± 0.11	95.02 ± 0.01	1.00 ± 0.24	71.33 ± 0.21	73.62 ± 0.13	2.79 ± 0.26
iBOT-1K	L2P [41]	75.57 ± 0.41	82.69 ± 0.06	7.23 ± 0.93	60.97 ± 0.26	65.95 ± 0.02	4.07 ± 0.66
iBOT-1K	DualPrompt [40]	76.63 ± 0.05	85.08 ± 0.12	8.41 ± 0.40	61.51 ± 1.05	67.11 ± 0.08	5.02 ± 0.52
iBOT-1K	S-Prompt++ [39]	77.53 ± 0.56	85.66 ± 0.16	8.07 ± 0.97	60.82 ± 0.68	66.03 ± 0.91	4.16 ± 0.14
iBOT-1K	CODA-Prompt [30]	79.11 ± 1.02	86.21 ± 0.49	7.69 ± 1.57	66.56 ± 0.68	73.14 ± 0.57	7.22 ± 0.38
iBOT-1K	HiDe-Prompt (Ours)	93.56 ± 0.12	94.95 ± 0.04	1.12 ± 0.21	71.21 ± 0.20	73.50 ± 0.12	2.65 ± 0.25
DINO-1K	HiDe-Prompt (Ours)	92.51 ± 0.11	94.25 ± 0.01	0.99 ± 0.21	68.11 ± 0.18	71.70 ± 0.01	3.11 ± 0.17
MoCo-1K	HiDe-Prompt (Ours)	91.57 ± 0.20	93.70 ± 0.01	1.19 ± 0.18	63.77 ± 0.49	68.26 ± 0.01	3.57 ± 0.96

프롬프트 기반 지속적 학습은 계층적 조정 없이 프롬프트만 최적화하면 자기지도 사전학습 하에서 성능이 저하된다.
HiDe-Prompt는 Spllit CIFAR-100 및 Split ImageNet-R 등 다양한 사전학습 패러다임 하에서 벤치마크를 넘어선 최첨단 결과를 달성한다.
HiDe-Prompt는 강력한 Baseline 대비 최대 15.01% FAA 리드 및 9.61% Split ImageNet-R 개선 등으로 상당한 이득을 보여준다.
프롬프트 앙상블과 오래된 작업 통계치를 활용한 작업별 프롬프트의 조합과 대조 규제가 WTP를 향상시키고 TAP를 오래된 작업에 정렬시킨다.
보조 TII와 적응된 TAP 헤드는 작업 간 아이덴티티 추론 및 클래스 예측을 지속적으로 개선하여 CIL 성능에 기여한다.
Sup-21K, iBOT-21K, iBOT-1K, DINO-1K, MoCo-1K 등의 PTM에서 HiDe-Prompt는 일관되게 L2P, DualPrompt, S-Prompt++, CODA-Prompt보다 우수하다(표 1 참조).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.