[논문 리뷰] Exploring Visual Prompts for Adapting Large-Scale Models
본 논문은 고정된 비전 모델과 비전-언어 모델에 적응하기 위해 단일 시각 프롬프트(픽셀 공간 교란)를 학습하는 것을 연구하고, CLIP이 특히 수용적이며 분배 변화에 강건하고 선형 프로브와 비교해 성능이 경쟁력 있음을 발견한다.
We investigate the efficacy of visual prompting to adapt large-scale models in vision. Following the recent approach from prompt tuning and adversarial reprogramming, we learn a single image perturbation such that a frozen model prompted with this perturbation performs a new task. Through comprehensive experiments, we demonstrate that visual prompting is particularly effective for CLIP and robust to distribution shift, achieving performance competitive with standard linear probes. We further analyze properties of the downstream dataset, prompt design, and output transformation in regard to adaptation performance. The surprising effectiveness of visual prompting provides a new perspective on adapting pre-trained models in vision. Code is available at http://hjbahng.github.io/visual_prompting .
연구 동기 및 목표
- 픽셀 공간 시각 프롬프트가 고정된 프리-트레이닝 비전 모델을 새로운 다운스트림 작업에 적응시킬 수 있는지 여부를 조사한다.
- 여러 모델과 15개 데이터셋에 걸쳐 프롬프트 기반 적응을 평가한다.
- 데이터셋 속성, 프롬프트 설계, 출력 매핑이 성능에 어떤 영향을 주는지 분석한다.
- 작업 및 이동에 걸친 비주얼 프롬프팅과 파인튜닝, 선형 프로브, 텍스트 프롬프팅 간의 비교를 수행한다.
제안 방법
- 고정된 F 모델을 역전파로 학습시키며 단일 작업 특화 시각 프롬프트 v_phi를 학습한다.
- 입력 변환을 사용해 x + v_phi 형태의 프롬프트가 적용된 이미지를 만들고 교차 엔트로피 손실로 phi를 최적화한다.
- 비전 모델용 하드코딩 라벨 매핑과 CLIP용 이산 텍스트 프롬프트의 두 출력 매핑 체계를 적용한다.
- 실험 전반에서 기본 프롬프트 크기 p = 30의 패딩 템플릿을 채택한다.
- 12개 데이터셋 및 분포 변 shifting(WILDS)에서 CLIP 및 세 가지 비전 모델(Instagram-사전학습 ResNeXt, BiT-M, RN50)을 평가한다.
- 기준으로 파인튜닝, 선형 프롙, 텍스트 프롬프팅과 비교한다.
실험 결과
연구 질문
- RQ1픽셀 공간에서 학습 가능한 고정 프롬프트가 고정된 모델이 새로운 다운스트림 작업을 수행하도록 할 수 있는가?
- RQ2다양한 데이터셋과 사전 학습 모델에서 시각 프롬프팅이 선형 프롙 및 파인튜닝과 어떤 차이가 있는가?
- RQ3적응 효과에 영향을 주는 데이터셋 속성 및 프롬프트 설계 요소는 무엇인가?
- RQ4CLIP이 표준 비전 모델보다 시각 프롬프팅에 특히 적합한가?
- RQ5시각 프롬프팅은 분포 변 shifts에 얼마나 강건한가?
주요 결과
| 모델 | 방법 | CIFAR100 | CIFAR10 | Flowers | Food | EuroSAT | SUN | UCF | SVHN | Pets | DTD | RESISC | CLEVR | 평균 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CLIP | TP | 63.1 | 89.0 | 61.9 | 79.8 | 40.0 | 60.0 | 59.9 | 5.1 | 85.9 | 43.0 | 42.4 | 20.2 | 54.2 |
| CLIP | VP + TP | 75.3 | 94.2 | 70.3 | 78.9 | 96.4 | 60.6 | 66.1 | 88.4 | 85.0 | 57.1 | 84.5 | 81.4 | 78.2 |
| CLIP | LP | 80.0 | 95.0 | 96.9 | 84.6 | 95.3 | 75.0 | 83.3 | 65.4 | 89.2 | 74.6 | 92.3 | 66.0 | 83.1 |
| CLIP | FT | 82.1 | 95.8 | 97.4 | 80.5 | 97.9 | 64.0 | 80.9 | 95.7 | 88.5 | 72.3 | 93.3 | 94.4 | 86.9 |
- CLIP를 활용한 시각 프롬프트는 선형 프롙에 비해 경쟁력 있는 성능을 달성하고 텍스트 프롬프팅보다 평균적으로 약 24% 높게 나타난다.
- 12개 데이터셋에서 CLIP의 시각 프롬프트(VP+TP)는 대부분의 과제에서 CLIP 텍스트 프롬프팅(TP)을 능가한다(예: EuroSAT, SVHN, CLEVR).
- 시각 프롬프팅은 WILDS 벤치마크에서 선형 프롙 및 파인튜닝에 비해 평균 격차를 감소시켰다(평균 각각 4.5%, 3.5%).
- 프롬프트 설계가 중요하다: p=30의 패딩이 일반적으로 최적의 결과를 낳고, 한 픽셀 프롬프트조차도 EuroSAT에서 CLIP을 약 3% 향상시킨다.
- CLIP가 없는 비전 모델의 경우 프롬프팅은 선형 프롭에 뒤처지며 CLIP의 시각 프롬프트에 대한 고유한 적합성을 강조한다.
- 하드코딩된 비전 모델용 출력 매핑은 라벨 의미에 민감할 수 있으며, CLIP의 텍스트 프롬프트를 통한 출력은 의미적 정렬을 활용할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.