QUICK REVIEW

[논문 리뷰] A Simple Zero-shot Prompt Weighting Technique to Improve Prompt Ensembling in Text-Image Models

James Urquhart Allingham, Jie Ren|arXiv (Cornell University)|2023. 02. 13.

Generative Adversarial Networks and Image Synthesis인용 수 9

한 줄 요약

이 논문은 Zero-shot Prompt Ensembling(ZPE)를 제시합니다: 라벨 데이터 없이도 방대한 프롬프트 풀을 자동으로 점수화하고, 선행 학습/테스트 편향을 줄이기 위해 점수를 정규화하며, 소프트맥스 가중치화나 프롬프트 선택을 적용하고, ImageNet 및 그 변형 및 세밀한 데이터셋 전반에 걸쳐 수작업으로 만든 프롬프트보다 제로샷 정확도가 향상됨을 입증합니다.

ABSTRACT

Contrastively trained text-image models have the remarkable ability to perform zero-shot classification, that is, classifying previously unseen images into categories that the model has never been explicitly trained to identify. However, these zero-shot classifiers need prompt engineering to achieve high accuracy. Prompt engineering typically requires hand-crafting a set of prompts for individual downstream tasks. In this work, we aim to automate this prompt engineering and improve zero-shot accuracy through prompt ensembling. In particular, we ask "Given a large pool of prompts, can we automatically score the prompts and ensemble those that are most suitable for a particular downstream dataset, without needing access to labeled validation data?". We demonstrate that this is possible. In doing so, we identify several pathologies in a naive prompt scoring method where the score can be easily overconfident due to biases in pre-training and test data, and we propose a novel prompt scoring method that corrects for the biases. Using our proposed scoring method to create a weighted average prompt ensemble, our method outperforms equal average ensemble, as well as hand-crafted prompts, on ImageNet, 4 of its variants, and 11 fine-grained classification benchmarks, all while being fully automatic, optimization-free, and not requiring access to labeled validation data.

연구 동기 및 목표

라벨이 있는 검증 데이터가 없는 상황에서 주어진 다운스트림 작업에 대해 방대한 프롬프트 풀을 점수화해 제로샷 분류기용 프롬프트 엔지니어링을 자동화한다.
사전 학습 및 테스트 데이터 빈도에 의해 주도되는 과신 프롬프트를 피하기 위해 바이어스 보정된 프롬 prompts 점수화 방법을 개발한다.
이 점수를 이용한 가중 프롬프트 앙상블이나 선택된 프롬프트가 동등 가중 앙상블과 수작업 프롬프트보다 다양한 데이터셋에서 제로샷 분류 정확도를 향상시킴을 실증한다.

제안 방법

라벨링된 데이터에 접근하지 않고 방대한 프롬프트 풀을 사용하여 각 프롬프트에 대해 제로샷 점수 s_p를 계산한다.
단순 최대 로짓 점수에서 단어 빈도 편향으로 인한 병리점을 식별하고, 사전 학습 및 테스트 분포에서 기대 로짓을 사용한 정규화를 제안한다.
로짓을 정규화하는 식 logits_normalized = logits - (E_pretrain + E_test)/2 를 사용하여 편향을 줄인다.
이미지들에 걸쳐 정규화된 로짓의 클래스별 최대값을 평균내어 프롬프트 점수 s_p를 계산한다.
프롬프트 점수에 소프트맥스 가중치를 적용하여 로짓의 가중 합을 형성하고(long-tail 효과를 완화하도록) (식 3/5).
선택적으로 이상치 탐지(중앙값과 MAD)로 임계치 tau를 설정해 상위 프롬프트만 사용하도록 프롬프트 선택을 수행한다(식 4).

실험 결과

연구 질문

RQ1제로샷 모델이 라벨링된 검증 데이터 없이도 큰 프롬프트 풀에서 프롬프트를 자동으로 선택하고 가중치를 부여해 다운스트림 제로샷 정확도를 최대화할 수 있는가?
RQ2사전 학습 단어 빈도 편향과 테스트 데이터 개념 빈도 편향을 완화하기 위해 프롬프트 점수화를 어떻게 보정할 수 있는가?
RQ3가중 프롬프트 앙상블이나 선택된 프롬프트가 다양한 데이터셋에서 동등 가중 앙상블과 수작업 프롬프트보다 우수한가?
RQ4정규화 및 가중화 방식이 제로샷 프롬프트 엔섬블링의 효과에 어떤 영향을 미치는가?
RQ5프롬프트 풀의 크기와 구성이 ImageNet 및 세밀한 데이터셋에서 제로샷 성능에 어떻게 영향을 미치는가?

주요 결과

가중 ZPE 앙상블은 ImageNet, ImageNet 변형 및 여러 세밀한 벤치마크에서 동등 평균 앙상블 및 수작업 프롬프트보다 우수하다.
E_pretrain 및 E_test를 이용한 정규화는 단어 빈도 편향과 잘못된 개념 빈도 편향을 감소시켜 여러 작업에서 제로샷 정확도를 향상시킨다.
프롬프트 점수의 소프트맥스 가중치가 일반적으로 원시 점수 가중치나 단순 최대 로짓 방식보다 더 나은 성능을 낸다.
이상치 기반의 tau 임계치를 통한 프롬프트 선택은 개선을 가져다주며, 특히 도메인 특화 프롬프트가 더 가치 있는 세밀한 데이터셋에서 그렇다.
CLIP ViT-B/16 및 LiT ViT-L/16 전반에서 ZPE 기반 가중 평균은 수작업 프롬프트 및 순진한 방법보다 더 높은 평균 정확도를 달성하며, 여러 데이터셋에서 상당한 이득이 관찰된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.