QUICK REVIEW

[논문 리뷰] S-Prompts Learning with Pre-trained Transformers: An Occam's Razor for Domain Incremental Learning

Yabin Wang, Zhiwu Huang|arXiv (Cornell University)|2022. 07. 26.

Domain Adaptation and Few-Shot Learning인용 수 60

한 줄 요약

S-Prompts는 사전 학습된 트랜스포머를 사용하여 예제 없이 도메인 증가 학습을 해결하기 위해 독립적인 도메인별 프롬프트를 도입하고, 강한 도메인 구분과 적은 망각을 달성하며, 두 가지 구현: 이미지 기반 프롬프트(ViT)와 언어-이미지 프롬프트(CLIP)를 제시한다.

ABSTRACT

State-of-the-art deep neural networks are still struggling to address the catastrophic forgetting problem in continual learning. In this paper, we propose one simple paradigm (named as S-Prompting) and two concrete approaches to highly reduce the forgetting degree in one of the most typical continual learning scenarios, i.e., domain increment learning (DIL). The key idea of the paradigm is to learn prompts independently across domains with pre-trained transformers, avoiding the use of exemplars that commonly appear in conventional methods. This results in a win-win game where the prompting can achieve the best for each domain. The independent prompting across domains only requests one single cross-entropy loss for training and one simple K-NN operation as a domain identifier for inference. The learning paradigm derives an image prompt learning approach and a novel language-image prompt learning approach. Owning an excellent scalability (0.03% parameter increase per domain), the best of our approaches achieves a remarkable relative improvement (an average of about 30%) over the best of the state-of-the-art exemplar-free methods for three standard DIL tasks, and even surpasses the best of them relatively by about 6% in average when they use exemplars. Source code is available at \url{https://github.com/iamwangyabin/S-Prompts}.

연구 동기 및 목표

저장된 예제를 사용하지 않고 도메인 증분 학습(DIL)에서의 급격한 망각 문제를 해결한다.
도메인별로 독립적으로 프롬프트를 학습하는 간단한 패러다임(S-Prompts)을 제안하여 도메인 특화 성능을 극대화한다.
확장 가능한 프롬프트 풀을 갖춘 두 가지 구현(S-iPrompts on ViT 및 S-liPrompts on CLIP)을 시연한다.

제안 방법

사전 학습된 트랜스포머를 고정하고 도메인별로 독립적으로 도메인 프롬프트를 학습하여 성장하는 프롬프트 풀에 추가한다.
도메인 프롬프트 학습에 간단한 교차 엔트로피 손실을 사용하고 추론 시 K-Means/K-NN 도메인 식별자를 활용한다.
S-iPrompts의 경우 이미지 토큰에 독립적인 이미지 프롬프트를 부착하고 도메인별 FC 분류기를 학습한다.
S-liPrompts의 경우 이미지와 언어 프롬프트를 결합하여 CLIP 스타일의 텍스트 인코더를 도메인별 언어 프롬프트와 함께 사용하고 CLIP 기반의 도메인 특화 분류기를 사용한다.

실험 결과

연구 질문

RQ1공유 프롬프트 대신 도메인별로 독립적으로 프롬프트를 생성하여 예제 없는 DIL이 경쟁력 있거나 더 우수한 성능을 달성할 수 있는가?
RQ2다중 도메인에 걸친 정밀도, 망각, 확장성에서 이미지 전용 프롬프트와 언어-이미지 프롬프트 전략은 어떻게 비교되는가?
RQ3추론 중 효과적인 도메인 라우팅에 단순한 도메인 식별자(K-Means/K-NN)로 충분한가?
RQ4도메인 수가 늘어나면서 S-Prompts의 메모리 및 계산 비용은 어느 정도인가?
RQ5S-Prompts가 보지 않은 도메인이나 도메인 밖 데이터에 얼마나 잘 일반화되는가?

주요 결과

S-Prompts는 세 가지 표준 DIL 벤치마크에서 예제 없는 베이스라인을 크게 능가하며(전방 정확도 약 30% 상대 향상).
S-Prompts는 경쟁하는 예제 없는 방법들에 비해 망각이 크게 감소하며 평균 망각 개선은 약 13–41 포인트이다.
S-liPrompts는 CLIP 기반 프롬프트를 갖춘 경우 DomainNet에서 심지어 예제 기반 방법도 능가하고 보지 않은 도메인에 대한 일반화도 강하게 나타낸다.
CLIP의 언어-이미지 프롬프트 방식(S-liPrompts)은 도메인당 약 0.03%의 파라미터 증가로도 확장 가능한 도메인 성장을 달성한다.
추론 시 도메인 식별이 완벽하지 않아도 S-Prompts는 경쟁력 있거나 더 나은 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.