Skip to main content
QUICK REVIEW

[논문 리뷰] CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models

Yuan Yao, Ao Zhang|arXiv (Cornell University)|2021. 09. 24.
Multimodal Machine Learning Applications참고 문헌 45인용 수 86
한 줄 요약

CPT는 이미지 영역을 색으로 표시하고 질의를 색상 채워진 템플릿으로 재작성하는 교차 모달 프롬프트 튜닝을 도입하여 신규 매개변수 추가 없이 사전 학습된 비전-언어 모델의 강력한 제로샷 및 소샷 시각적 기준화를 가능하게 한다. 데이터가 적은 상황에서 미세조정(Fine-tuning) 대비 큰 이점을 보이고, 완전 감독 설정에서도 경쟁력을 유지한다.

ABSTRACT

Pre-Trained Vision-Language Models (VL-PTMs) have shown promising capabilities in grounding natural language in image data, facilitating a broad variety of cross-modal tasks. However, we note that there exists a significant gap between the objective forms of model pre-training and fine-tuning, resulting in a need for large amounts of labeled data to stimulate the visual grounding capability of VL-PTMs for downstream tasks. To address the challenge, we present Cross-modal Prompt Tuning (CPT, alternatively, Colorful Prompt Tuning), a novel paradigm for tuning VL-PTMs, which reformulates visual grounding into a fill-in-the-blank problem with color-based co-referential markers in image and text, maximally mitigating the gap. In this way, CPT enables strong few-shot and even zero-shot visual grounding capabilities of VL-PTMs. Comprehensive experimental results show that the prompt-tuned VL-PTMs outperform their fine-tuned counterparts by a large margin (e.g., 17.3% absolute accuracy improvement, and 73.8% relative standard deviation reduction on average with one shot in RefCOCO evaluation). We make the data and code for this paper publicly available at https://github.com/thunlp/CPT.

연구 동기 및 목표

  • VL-PTM에 대한 사전 학습(MLM 기반 목표)과 미세조정(과제별 분류) 간의 격차를 줄인다.
  • 색상 기반 교차 모달 프롬프트를 사용하여 시각적 기준화를 채우기-빈칸 문제로 형식화한다.
  • 고품질의 교차 모달 색 프롬프트를 탐색하는 체계적인 방법을 개발한다.
  • 제로샷 및 소샷 시각적 기준화에서 강력하고, 완전 감독 성능에서도 경쟁력을 입증한다.

제안 방법

  • 두 부분으로 구성된 CPT 프레임워크: 시각 서브 프롬프트가 이미지 영역을 고유한 색으로 색칠하고, 텍스트 서브 프롬프트가 질의를 색 기반 템플릿에 배치한다.
  • 새 매개변수를 도입하지 않고 MLM 헤드를 통해 대상 영역에 해당하는 색 텍스트를 회복하여 기준화를 달성한다.
  • 교차 모달 프롬프트 탐색(CPS)은 시각적 잘 보기와 색 텍스트를 함께 최적화하여 디코딩 점수를 극대화하고 VL-PTM가 가장 강하게 연관된 색쌍을 선택한다.
  • 대상 영역을 포함하지 않는 배치를 다루기 위한 none-token이 있는 이미지 영역 배치 처리.
  • 마스크된 위치에서 관계 토큰을 재구성하는 템플릿을 사용하여 시각 관계 탐지로의 확장을 지원한다.

실험 결과

연구 질문

  • RQ1교차 모달 색 프롬프트가 VL-PTMs로 최소한의 과제 특화 미세조정 없이도 지시 표현을 기준화할 수 있는가?
  • RQ2데이터셋과 과제 전반에 걸쳐 교차 모달 기준화 성능을 극대화하기 위해 색상 외관과 색상 텍스트를 어떻게 선택해야 하는가?
  • RQ3 CPT가 제로샷 및 소샷 환경에서 일반 미세조정과 비교하여 데이터 효율성과 안정성을 향상시키는가?
  • RQ4최소한의 아키텍처 변화로 시각적 관계 탐지와 같은 관련 교차 모달 과제로 CPT를 확장할 수 있는가?

주요 결과

  • CPT는 RefCOCO에서 한 샷과 같은 강력한 미세조정 기준선 대비 제로샷 및 소샷 기준화 정확도를 크게 향상시킨다.
  • 시각적 프롬프트로 색상 분할 마스크를 사용하는 것이 색상 블록보다 객체 윤곽과의 정렬이 더 잘 되어 더 큰 이점을 준다.
  • CPT는 데이터가 적은 상황에서 미세조정에 비해 상대 표준편차가 훨씬 낮아 학습 안정성이 더 크다.
  • 완전 감독 설정에서 CPT이 연결된 프롬프트는 강한 미세조정 VL-PTMs에 비해 경쟁력이 있으며, 종종 CPT- Seg가 우세하다.
  • 교차 모달 프롬프트 탐색(CPS)은 Naive 빈도 기반 선택보다 색 선택을 개선하여 평균 정확도와 안정성을 높인다.
  • CPT는 시각적 관계 탐지에도 효과적으로 확장되며 제로샷/소샷 성능은 경쟁력이 있고 미세조정 대비 큰 이점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.