Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised Prompt Learning for Vision-Language Models

Tony Jun Huang, Jack O. Chu|arXiv (Cornell University)|2022. 04. 07.
Multimodal Machine Learning Applications인용 수 54
한 줄 요약

UPL은 비라벨(Target) 데이터에 대해 가짜 라벨을 생성하고 프롬프트를 자기 학습시켜 CLIP의 프롬프트 표현을 비지도학습으로 얻고 대상 주석 없이도 전이 성능을 향상시킨다.

ABSTRACT

Contrastive vision-language models like CLIP have shown great progress in transfer learning. In the inference stage, the proper text description, also known as prompt, needs to be carefully designed to correctly classify the given images. In order to avoid laborious prompt engineering, recent works such as CoOp, CLIP-Adapter and Tip-Adapter propose to adapt vision-language models for downstream image recognition tasks on a small set of labeled data. Though promising improvements are achieved, requiring labeled data from the target datasets may restrict the scalability. In this paper, we explore a different scenario, in which the labels of the target datasets are unprovided, and we present an unsupervised prompt learning (UPL) approach to avoid prompt engineering while simultaneously improving transfer performance of CLIP-like vision-language models. As far as we know, UPL is the first work to introduce unsupervised learning into prompt learning. Experimentally, our UPL outperforms original CLIP with prompt engineering on ImageNet as well as other 10 datasets. An enhanced version of UPL is even competitive with the 8-shot CoOp and the 8-shot TIP-Adapter on most datasets. Code and models are available at https://github.com/tonyhuang2022/UPL.

연구 동기 및 목표

  • 라벨이 있는 대상 데이터 없이 프롬프트 학습을 활용해 CLIP-스타일 모델의 성능을 개선하는 동기를 제공한다.
  • 비지도 방식으로 연속 프롬프트 표현을 학습하여 수작업 프롬프트 엔지니어링을 제거한다.
  • 가짜 라벨링과 프롬프트 최적화가 다양한 데이터셋에서의 전이 성능에 미치는 영향을 분석한다.

제안 방법

  • 사전 학습된 비전-언어 모델(예: CLIP)을 사용해 라벨이 없는 대상 데이터에 대한 가짜 라벨을 생성한다.
  • 각 클래스당 상위-K의 확신 샘플을 선택해 가짜 라벨링된 세트를 구성하고 클래스 불균형 문제를 완화한다.
  • 모든 클래스에 공유되는 학습 가능한 프롬프트 표현을 정의하고 가짜 라벨 샘플에 대한 크로스 엔트로피를 통해 최적화한다.
  • 추론 시 수작업 프롬프트를 학습된 프롬프트 표현으로 대체한다.
  • 필요 시 가짜 라벨 앙상블(C LI P 모델 간)과 프롬프트 표현 앙상블(여러 학습된 프롬프트)을 이용해 강건성을 높인다.

실험 결과

연구 질문

  • RQ1대상 도메인 라벨이 없이도 비지도 프롬프트 학습이 비전-언어 모델의 전이 성능을 향상시킬 수 있는가?
  • RQ2가짜 라벨링 전략(top-K)과 앙상블이 데이터셋 간 전이 정확도에 어떤 영향을 미치는가?
  • RQ3공유 학습 가능한 프롬프트 표현이 다수의 클래스에 충분한가, 아니면 다수의 프롬프트가 이로운가?
  • RQ4가짜 라벨의 노이즈와 가짜 라벨링에 내재된 클래스 불균형 문제에 UPL은 얼마나 강인한가?

주요 결과

  • UPL은 ImageNet 및 10개 추가 데이터셋에서 프롬프트 엔지니어링된 원래 CLIP보다 더 우수한 성능을 보인다.
  • 여러 CLIP 모델을 이용한 가짜 라벨링을 활용하는 개선된 버전 UPL*은 많은 데이터셋에서 8-shot CoOp 및 8-shot Tip-Adapter와 유사한 성능을 달성한다.
  • 상위-K 가짜 라벨링은 임계값으로 인한 클래스 불균형과 신뢰도와 라벨 품질 간의 낮은 상관 관계를 피하고 안정성을 높인다.
  • 프롬프트 표현 앙상블은 학습된 프롬프트의 클래스 특유의 편향을 활용해 추가적인 전이 이득을 얻는다.
  • UPL은 모든 클래스에 걸쳐 공통 프롬프트 표현을 공유하므로 노이즈가 있는 가짜 라벨에 대해 강건성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.