Skip to main content
QUICK REVIEW

[논문 리뷰] Conditional Prompt Learning for Vision-Language Models

Kaiyang Zhou, Jingkang Yang|arXiv (Cornell University)|2022. 03. 10.
Multimodal Machine Learning Applications인용 수 73
한 줄 요약

이 논문은 CoOp를 인스턴스 조건부 프롬프트 접근법(CoCoOp)으로 확장하여 입력-조건부 프롬프트 벡터를 생성해 보지 못한 클래스에 대한 일반화, 도메인 간 일반화 및 CLIP 유사 비전-언어 모델의 교차-데이터셋 전이 성능을 개선한다.

ABSTRACT

With the rise of powerful pre-trained vision-language models like CLIP, it becomes essential to investigate ways to adapt these models to downstream datasets. A recently proposed method named Context Optimization (CoOp) introduces the concept of prompt learning -- a recent trend in NLP -- to the vision domain for adapting pre-trained vision-language models. Specifically, CoOp turns context words in a prompt into a set of learnable vectors and, with only a few labeled images for learning, can achieve huge improvements over intensively-tuned manual prompts. In our study we identify a critical problem of CoOp: the learned context is not generalizable to wider unseen classes within the same dataset, suggesting that CoOp overfits base classes observed during training. To address the problem, we propose Conditional Context Optimization (CoCoOp), which extends CoOp by further learning a lightweight neural network to generate for each image an input-conditional token (vector). Compared to CoOp's static prompts, our dynamic prompts adapt to each instance and are thus less sensitive to class shift. Extensive experiments show that CoCoOp generalizes much better than CoOp to unseen classes, even showing promising transferability beyond a single dataset; and yields stronger domain generalization performance as well. Code is available at https://github.com/KaiyangZhou/CoOp.

연구 동기 및 목표

  • 정적 프롬프트(CoOp)가 기본 클래스에 과적합되는 문제를 해결한다.
  • 일반화를 개선하기 위한 경량의 입력-조건부 프롬프트 메커니즘을 개발한다.
  • 다양한 데이터셋에서 기본-새로운 일반화, 크로스-데이터셋 전이 및 도메인 일반화를 향상시키는 것을 시연한다.

제안 방법

  • 프롬프트를 위한 학습 가능한 공유 컨텍스트 벡터를 갖춘 CLIP/CoOp 기반으로 확장한다.
  • 입력 conditioned 토큰을 생성하는 메타-넷(경량 신경망)을 도입한다.
  • 입력 조건 토큰과 공유 컨텍스트 벡터를 결합하여 이미지를 위한 프롬프트를 형성한다.
  • 비전-언어 백본을 고정한 채로 프롬프트 구성 요소(컨텍스트 벡터 및 메타-넷)만 학습한다.
  • 기본-새로운 일반화, 크로스-데이터셋 전이 및 도메인 일반화 설정에서 평가한다.

실험 결과

연구 질문

  • RQ1인스턴스 조건부 프롬프트가 정적 CoOp 프롬프트와 비교하여 기본 클래스에 대한 과적합을 줄일 수 있는가?
  • RQ2입력 조건 프롬프트가 데이터셋 내에서 unseen 클래스에 대한 일반화를 향상시키는가?
  • RQ3인스턴스 조건부 프롬프트가 데이터셋 간 전이성이 더 높고 도메인 이동에 더 강인한가?

주요 결과

모델기본새로운조화 평균
CLIP69.3474.2271.70
CoOp82.6963.2271.66
CoCoOp80.4771.6975.83
  • CoCoOp는 unseen-class 정확도를 CoOp의 63.22%에서 평균적으로 11개 데이터셋에서 71.69%로 향상시킨다.
  • base-to-new 일반화에서 CoCoOp는 CoOp 및 CLIP보다 조화 평균(H)이 더 높게 나타낸다(예: 표 1에서 CoCoOp의 H=75.83, CoOp의 71.66, CLIP의 71.70).
  • CoCoOp는 다수의 소스-타깃 쌍에 걸쳐 더 나은 크로스-데이터셋 전이 성능을 달성한다(표 2의 평균 이득 예시).
  • CoCoOp는 도메인 일반화 벤치마크에서 CLIP 및 CoOp를 consistently 이기고 도메인 이동에 대한 강건성을 향상시킨다(표 3).
  • unseen/클래스 일반화의 이득은 일반적으로 기본 클래스 손실이 작아지며 전체 성능에 순이익을 가져다 준다(그림 3 및 표 1).
  • Ablation 연구는 더 긴 컨텍스트와 적절한 초기화가 unseen 클래스에 더 이익을 주며, 메타-넷은 단순히 매개변수 수를 늘리는 것 이상으로 의미 있게 기여한다(표 5).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.