Skip to main content
QUICK REVIEW

[논문 리뷰] Visual-Language Prompt Tuning with Knowledge-guided Context Optimization

Hantao Yao, Rui Zhang|arXiv (Cornell University)|2023. 03. 23.
Multimodal Machine Learning Applications인용 수 17
한 줄 요약

KgCoOp는 학습 가능한 프롬프트를 손으로 설계한 프롬프트에 가까이 유지하도록 정규화함으로써 CoOp를 보강하고, CLIP과 함께 보지 못한 클래스에 대한 일반화를 향상시키되 빠른 학습 시간을 유지합니다.

ABSTRACT

Prompt tuning is an effective way to adapt the pre-trained visual-language model (VLM) to the downstream task using task-related textual tokens. Representative CoOp-based work combines the learnable textual tokens with the class tokens to obtain specific textual knowledge. However, the specific textual knowledge is the worse generalization to the unseen classes because it forgets the essential general textual knowledge having a strong generalization ability. To tackle this issue, we introduce a novel Knowledge-guided Context Optimization (KgCoOp) to enhance the generalization ability of the learnable prompt for unseen classes. The key insight of KgCoOp is that forgetting about essential knowledge can be alleviated by reducing the discrepancy between the learnable prompt and the hand-crafted prompt. Especially, KgCoOp minimizes the discrepancy between the textual embeddings generated by learned prompts and the hand-crafted prompts. Finally, adding the KgCoOp upon the contrastive loss can make a discriminative prompt for both seen and unseen tasks. Extensive evaluation of several benchmarks demonstrates that the proposed Knowledge-guided Context Optimization is an efficient method for prompt tuning, \emph{i.e.,} achieves better performance with less training time.

연구 동기 및 목표

  • 사전 학습된 시각-언어 모델의 프롬프트 튜닝에서 더 우수한 일반화가 필요하다는 필요성을 제시한다.
  • 일반적이고 손으로 설계된 프롬프트와 학습된 프롬프트를 정렬하는 정규화 항을 도입하여 일반 지식을 보존한다.
  • 프롬프트 간 차이를 최소화하는 것이 보지 못한 클래스의 성능을 향상시키면서 본 클래스 정확도를 해치지 않는다는 것을 보인다.
  • 11개 데이터셋과 다양한 백본에서 base-to-new, few-shot 및 도메인 일반화 설정에 걸쳐 KgCoOp를 평가한다.

제안 방법

  • CoOp를 기반으로 지식 가이드 컨텍스트 최적화 항을 더한다.
  • 손으로 설계된 프롬프트에서 일반 텍스트 지식을 정의한다(예: CLIP의 a photo of a [Class]).
  • 적은 샷 데이터에서 생성된 학습 가능한 프롬프트에서 특정 텍스트 지식을 정의한다.
  • 학습된 임베딩과 일반 임베딩 간의 차이를 최소화하기 위해 L_kg = (1/N_c) sum_i ||w_i − w_i_clip||^2 를 도입한다.
  • 총 손실 L = L_ce + lambda * L_kg 를 최적화하며, lambda가 두 항의 가중치를 균형 맞춘다.
  • KgCoOp가 CoOp와 동일한 학습 시간으로 본 클래스 성능은 유사하게 유지하면서 unseen-클래스에서 더 높은 성능을 달성함을 시연한다.

실험 결과

연구 질문

  • RQ1학습 가능한 프롬프트와 일반 프롬프트 간의 근접성을 강제하는 것이 unseen-class 일반화를 향상시키면서 seen-class 성능에 해를 끼치지 않는가?
  • RQ2다양한 데이터셋에서 base-to-new, few-shot, 도메인 일반화 시나리오에서 KgCoOp의 성능은 어떤가?
  • RQ3정규화 가중치 lambda가 일반화 및 하모닉 평균 성능에 미치는 영향은 무엇인가?
  • RQ4기존 CoOp 기반 방법 위에 KgCoOp를 적용하여 unseen-class 일반화를 개선할 수 있는가?

주요 결과

  • KgCoOp는 base-to-new 일반화에서 CoOp, CoCoOp, ProGrad보다 더 높은 하모닉 평균 성능(H)을 얻는다.
  • KgCoOp는 경쟁하는 CoOp 기반 방법들보다 새로운 클래스 정확도가 높으면서도 기본 클래스 성능은 CoCoOp에 비슷하게 유지한다.
  • KgCoOp 학습 시간은 CoOp와 비슷하고 CoCoOp 및 ProGrad보다 빠르다.
  • KgCoOp는 도메인 일반화를 개선하며 ImageNet 유래 대상에서 CoCoOp보다 평균 대상 성능이 높다.
  • few-shot 설정에서 KgCoOp는 데이터셋 전체에서 평균적으로 기준선보다 우수하며 unseen-class 성능을 향상시킨다.
  • 정규화 매개변수 lambda가 트레이드오프를 좌우한다; 최적의 lambda(예: 8.0)는 4-shot/16-shot 시나리오에서 최고의 하모닉 평균을 산출한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.