QUICK REVIEW

[논문 리뷰] Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

Manli Shu, Weili Nie|arXiv (Cornell University)|2022. 09. 15.

Multimodal Machine Learning Applications인용 수 112

한 줄 요약

이 논문은 Test-Time Prompt Tuning(TPT)을 도입하여 CLIP과 같은 비전-언어 모델의 제로샷 일반화를 개선하기 위해 단일 테스트 샘플에서 프롬프트를 최적화하고, 확신 기반 필터링으로 증강 뷰 간 엔트로피 최소화를 수행합니다.

ABSTRACT

Pre-trained vision-language models (e.g., CLIP) have shown promising zero-shot generalization in many downstream tasks with properly designed text prompts. Instead of relying on hand-engineered prompts, recent works learn prompts using the training data from downstream tasks. While effective, training on domain-specific data reduces a model's generalization capability to unseen new domains. In this work, we propose test-time prompt tuning (TPT), a method that can learn adaptive prompts on the fly with a single test sample. For image classification, TPT optimizes the prompt by minimizing the entropy with confidence selection so that the model has consistent predictions across different augmented views of each test sample. In evaluating generalization to natural distribution shifts, TPT improves the zero-shot top-1 accuracy of CLIP by 3.6% on average, surpassing previous prompt tuning approaches that require additional task-specific training data. In evaluating cross-dataset generalization with unseen categories, TPT performs on par with the state-of-the-art approaches that use additional training data. Project page: https://azshue.github.io/TPT.

연구 동기 및 목표

추가 학습 데이터나 주석 없이 CLIP의 제로샷 일반화를 향상시킨다.
하나의 테스트 이미지에 대한 증강 뷰들 간의 예측을 정렬하는 테스트 시점 목표를 개발한다.
프롬프트 튜닝 중 노이즈가 있는 증강을 제거하기 위한 신뢰도 선택을 도입한다.
배포 분포 변화 하에서의 이미지 분류와 맥락 의존적 시각 추론에서 TPT를 입증한다.
다양한 설정에서 학습 데이터를 사용하는 최첨단 프롬프트 튜닝과 동등하거나 이를 능가함을 보인다.

제안 방법

프롬프트를 학습 가능한 텍스트 임베딩으로 표현하고 테스트 시점에 이를 최적화한다.
테스트 이미지의 N개 증강 뷰를 생성하고 뷰 간 예측의 주변 엔트로피를 최소화한다.
백분위 임계값을 기반으로 고자체 엔트로피가 높은 증강 뷰를 버려 신뢰도 선택을 적용한다.
Bongard-HOI 시각 추론의 경우 쿼리 주석 없이 지원 이미지로부터 프롬프트와 이진 라벨 토큰을 모두 학습한다.
TPT는 CLIP 프레임워크를 사용하며 제로샷 능력을 유지하기 위해 텍스트 프롬프트만 업데이트하는 데 초점을 맞춘다.
단일 테스트 예제에서 AdamW로 한 단계 프롬프트 최적화를 수행한다.

실험 결과

연구 질문

RQ1자연스러운 분포 변화 하에서 학습 데이터 없이 테스트 시점 프롬프트 튜닝이 제로샷 CLIP 성능을 개선할 수 있는가?
RQ2교차 데이터셋 일반화 및 보지 못한 카테고리에서 TPT는 소수 샷 프롬프트 튜닝 방법과 어떻게 비교되는가?
RQ3학습 데이터 없이 Bongard-HOI와 같은 맥락 의존적 시각 추론 업무에 TPT를 효과적으로 확장할 수 있는가?
RQ4신뢰도 기반 뷰 선택이 프롬프트 튜닝의 효과성에 미치는 영향은 무엇인가?

주요 결과

방법	ImageNet	ImageNet-A	ImageNet-V2	ImageNet-R	ImageNet-Sketch	평균	OOD 평균
CLIP-RN50	58.16	21.83	51.41	56.15	33.37	44.18	40.69
Ensemble	59.81	23.24	52.91	60.72	35.48	46.43	43.09
CoOp	63.33	23.06	55.40	56.60	34.67	46.61	42.43
CoCoOp	62.81	23.32	55.72	57.74	34.48	46.81	42.82
TPT	60.74	26.67	54.70	59.11	35.09	47.26	43.89
TPT + CoOp	64.73	30.32	57.83	58.99	35.86	49.55	45.75
TPT + CoCoOp	62.93	27.40	56.60	59.88	35.43	48.45	44.83
CLIP-ViT-B/16	66.73	47.87	60.86	73.98	46.09	59.11	57.20
Ensemble	68.34	49.89	61.88	77.65	48.24	61.20	59.42
CoOp	71.51	49.71	64.20	75.21	47.99	61.72	59.28
CoCoOp	71.02	50.63	64.07	76.18	48.75	62.13	59.91
TPT	68.98	54.77	63.45	77.06	47.94	62.44	60.81
TPT + CoOp	73.61	57.95	66.83	77.27	49.29	64.99	62.83
TPT + CoCoOp	71.07	58.47	64.85	78.65	48.47	64.30	62.61

TPT는 자연 분포 변화에 대해 수작업으로 만든 프롬프트와 비교하여 CLIP의 제로샷 top-1 정확도를 평균 3.6% 향상시킨다.
TPT는 다운스트림 학습 데이터가 필요한 최첨단 프롬프트 튜닝 방법과 여러 설정에서 동등하거나 앞선다.
ImageNet-A에서 수작업 프롬프트보다 최대 6.9% 향상을 달성한다.
교차 데이터셋 일반화에서 TPT는 학습 데이터를 사용하지 않고도 소수 샷 방법과 같은 수준의 성능을 달성한다.
Bongard-HOI 시각 추론에서 TPT가 최첨단보다 4.1% 더 우수하다.
신뢰도 선택은 노이즈가 많은 증강을 억제하고 엔트로피 최소화 효율을 높이는 데 도움을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.