[논문 리뷰] VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts
VT-CLIP은 시각 가이드 크로스-어텐션 모듈을 사용하여 텍스트 특징을 시각 공간 특징에 맞게 조정함으로써 11 데이터셋에 걸친 소수-shot 인식에서 CLIP을 개선합니다.
Contrastive Language-Image Pre-training (CLIP) has drawn increasing attention recently for its transferable visual representation learning. However, due to the semantic gap within datasets, CLIP's pre-trained image-text alignment becomes sub-optimal on downstream tasks, which severely harms its transferring performance. To better adapt the cross-modality embedding space, we propose to enhance CLIP via Visual-guided Texts, named VT-CLIP. Specifically, we guide textual features of different categories to adaptively explore informative regions on the image and aggregate visual features by attention mechanisms. In this way, the texts become visual-guided, namely, more semantically correlated with downstream images, which greatly benefits the category-wise matching process. In few-shot settings, we evaluate our VT-CLIP on 11 well-known classification datasets to demonstrate its effectiveness.
연구 동기 및 목표
- CLIP의 소수-shot 조건에서 멀티모달 정렬을 개선합니다.
- 텍스트 프롬프트가 시각 맥락을 사용하여 이미지 영역에 적응적으로 집중하도록 합니다.
- 잔차 연결을 통해 원래 텍스트 특징을 보존함으로써 견고성을 유지합니다.
- 데이터셋 전반에서 baselines(Zero-shot CLIP, CoOp, CLIP-Adapter) 대비 향상된 성능을 보여줍니다.
제안 방법
- 텍스트가 시각 공간 특징을 질의하여 텍스트 표현을 적응시키는 시각 가이드 크로스-어텐션 모듈을 도입합니다.
- 인코더를 고정한 Pre-trained CLIP 구성요소를 사용하고 크로스-어텐션 모듈만 학습합니다.
- 크로스-어텐션에서 키/값으로 컨텍추얼 레벨의 공간 이미징 피처를 사용합니다.
- 적응된 텍스트 특징과 원래 텍스트 특징을 융합하는 잔차 연결을 적용합니다.
- 적응된 텍스트 특징을 이용해 유사도를 계산하고 최종 분류 점수를 도출합니다.
- 소수-shot 설정(1, 2, 4, 8, 16 샷)에서 11개의 데이터셋을 평가합니다.
실험 결과
연구 질문
- RQ1시각 가이드 텍스트 조정이 소수-shot 설정에서 다운스트림 과제의 멀티모달 정렬을 개선할 수 있는가?
- RQ2이미지 공간 특징과 텍스트 특징 간의 크로스-어텐션이 VT-CLIP의 범주별 매칭에 어떤 영향을 미치는가?
- RQ3시각 가이드 크로스-어텐션 모듈의 아키텍처 선택(헤드 수, 층 수)이 성능에 미치는 영향은 무엇인가?
주요 결과
- VT-CLIP은 11개의 데이터셋에서 소수-shot 설정에서 Zero-shot CLIP, CoOp, CLIP-Adapter를 지속적으로 능가합니다.
- 훈련 샷 수가 증가할수록 VT-CLIP의 정확도 향상이 커집니다.
- VT-CLIP은 특히 저샷 회로에서 CoOp보다 더 안정된 성능을 보여줍니다.
- 절제 연구에서 크로스-어텐션 모듈의 두 개의 헤드에서 최고의 성능이 나타나며, 더 많은 계층을 연쇄적으로 추가하는 것은 소수-shot 시나리오에서 성능을 해칠 수 있습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.