QUICK REVIEW

[논문 리뷰] Unified Vision and Language Prompt Learning

Yuhang Zang, Wei Li|arXiv (Cornell University)|2022. 10. 13.

Domain Adaptation and Few-Shot Learning인용 수 55

한 줄 요약

Unified Prompt Tuning(UPT)을 통해 텍스트 프롬프트와 시각 프롬프트를 함께 조정하는 비전-언어 모델의 방법으로, CLIP-계열 설정에서 few-shot 및 도메인 일반화 작업에서 단일 모달 프롬프트 튜닝보다 더 우수한 성능을 보인다.

ABSTRACT

Prompt tuning, a parameter- and data-efficient transfer learning paradigm that tunes only a small number of parameters in a model's input space, has become a trend in the vision community since the emergence of large vision-language models like CLIP. We present a systematic study on two representative prompt tuning methods, namely text prompt tuning and visual prompt tuning. A major finding is that none of the unimodal prompt tuning methods performs consistently well: text prompt tuning fails on data with high intra-class visual variances while visual prompt tuning cannot handle low inter-class variances. To combine the best from both worlds, we propose a simple approach called Unified Prompt Tuning (UPT), which essentially learns a tiny neural network to jointly optimize prompts across different modalities. Extensive experiments on over 11 vision datasets show that UPT achieves a better trade-off than the unimodal counterparts on few-shot learning benchmarks, as well as on domain generalization benchmarks. Code and models will be released to facilitate future research.

연구 동기 및 목표

CLIP와 같은 VL 모델에서 기존의 단일 모달 프롬프트 튜닝(텍스트 또는 시각)을 평가하여 한계점을 파악한다.
텍스트와 시각 모달리티 전반에 걸쳐 프롬프트를 함께 최적화하는 다중 모달 프롬프트 학습 방법을 개발한다.
다양한 데이터셋에서 통합 프롬프트가 더 나은 few-shot 및 도메인 일반화 성능을 제공함을 입증한다.

제안 방법

내부 클래스 시각 분산(intra-class visual variance)과 클래스 간 텍스트 분산(inter-class text variance) 지표를 사용하여 텍스트 프롬프트 튜닝(CoOp)과 시각 프롬프트 튜닝(VPT)의 한계를 분석한다.
Unified Prompt Tuning(UPT)을 도입한다: 경량 Transformer 계층에 의해 변환되어 텍스트 인코더와 이미지 인코더에 대한 모듈별 프롬프트를 생성하는 작고 다중 모달 프롬프트 U를 학습한다.
이미지 인코더와 텍스트 인코더를 고정하고 U와 Transformer θ만 최적화한다.
변환된 프롬프트를 텍스트 및 이미지 인코더의 여러 계층에 공동 학습 방식으로 삽입한다.
선택적으로 계층별 프롬프트 U^i를 제공하고 변환된 프롬프트를 텍스트 및 시각 부문으로 나누어 삽입한다.
U의 자기-주의 기반 변환이 교차 모달 상호작용 및 정합성을 더 잘 향상시킴을 보인다.

실험 결과

연구 질문

RQ1단일 모달 프롬프트 튜닝(텍스트 또는 시각)이 다양한 데이터셋에서 VL 모델의 성능을 지속적으로 향상시킬 수 있는가?
RQ2다중 모달 통합 프롬프트가 단일 모달 프롬프트보다 텍스트 분류기와 시각 특징 공간 간의 격차를 더 잘 메울 수 있는가?
RQ3CoOp와 VPT와 비교했을 때, 통합 프롬프트 학습은 few-shot 학습 및 도메인 일반화에서 어떤 성능을 보이는가?
RQ4공유 프롬프트 여부, MLP 대 Transformer 등 어떤 설계 선택이 다중 모달 프롬프트의 효과성에 영향을 미치는가?

주요 결과

UPT는 few-shot 설정에서 11개 데이터셋에 걸쳐 일반적으로 단일 모달 프롬프트 튜닝(CoOp 및 VPT)보다 우수하다.
CoOp 대비 UPT의 인도메인 few-shot 정확도 증가폭은 샷 수에 따라 약 0.48~3.19 포인트이며(16-shot에서 두드러진 이득).
샷 설정에 따라 VPT-deep보다 약 0.89~2.70 포인트 개선.
도메인 일반화에서 UPT는 CoCoOp와 경쟁력 있는 결과를 얻고 여러 대상 데이터셋에서 종종 최상위 결과를 보여 강건한 OOD 성능을 입증한다.
효과 분석 연구는 통합 프롬프트의 self-attention 기반 변환이 단순한 공동 학습이나 공유 프롬프트보다 유익하며, MLP 기반 프롬프트도 경쟁력이 있을 수 있지만 일반적으로 Transformer 방식보다 성능이 떨어진다는 것을 시사한다.
정성적 어텐션 시각화는 UPT가 프롬프트와 이미지 토큰 간의 자기-주의를 더 강하게 만들어 교차 모달 상호작용이 더 좋아짐을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.