[논문 리뷰] Fine-Grained Visual Prompting
FGVP는 시맨틱 마스크를 이용한 픽셀-정확한 시각 프롬프트를 도입하고(SAM을 통해) Blur Reverse Mask 전략으로 오프-더-셀프 비전-언어 모델과 함께 제로샷 지칭 표현 이해 및 부품 탐지 성능을 향상시킵니다.
Vision-Language Models (VLMs), such as CLIP, have demonstrated impressive zero-shot transfer capabilities in image-level visual perception. However, these models have shown limited performance in instance-level tasks that demand precise localization and recognition. Previous works have suggested that incorporating visual prompts, such as colorful boxes or circles, can improve the ability of models to recognize objects of interest. Nonetheless, compared to language prompting, visual prompting designs are rarely explored. Existing approaches, which employ coarse visual cues such as colorful boxes or circles, often result in sub-optimal performance due to the inclusion of irrelevant and noisy pixels. In this paper, we carefully study the visual prompting designs by exploring more fine-grained markings, such as segmentation masks and their variations. In addition, we introduce a new zero-shot framework that leverages pixel-level annotations acquired from a generalist segmentation model for fine-grained visual prompting. Consequently, our investigation reveals that a straightforward application of blur outside the target mask, referred to as the Blur Reverse Mask, exhibits exceptional effectiveness. This proposed prompting strategy leverages the precise mask annotations to reduce focus on weakly related regions while retaining spatial coherence between the target and the surrounding background. Our Fine-Grained Visual Prompting (FGVP) demonstrates superior performance in zero-shot comprehension of referring expressions on the RefCOCO, RefCOCO+, and RefCOCOg benchmarks. It outperforms prior methods by an average margin of 3.0% to 4.6%, with a maximum improvement of 12.5% on the RefCOCO+ testA subset. Code is available at https://github.com/ylingfeng/FGVP.
연구 동기 및 목표
- 오프-the-shelf VLM으로 제로샷 인스턴스 레벨 이해를 향상시키기 위해 시각 프롬프트를 다듬습니다.
- 프롬프트 형식(crop, box, circle, mask)과 이들의 변형(blur, grayscale, color, lines)을 체계적으로 비교합니다.
- 노이즈를 줄이기 위한 강력한 백그라운드 흐림 전략으로 Blur Reverse Mask 프롬 prompting을 제안합니다.
- Detector가 있든 없든 미세한 마스크를 생성하기 위해 SAM을 활용하고 제로샷 작업을 수행합니다.
- Referring expression 벤치마크에서 SOTA 제로샷 성능과 PACO에서 부품 탐지 향상을 입증합니다.
제안 방법
- 이미지 프롬프트 I_Phi가 시각 프롬프트 VP(I, Phi)로 생성되고 텍스트 T가 CLIP과 같은 VLM과 매칭된다는 제로샷 프레임워크를 정의합니다.
- SAM을 사용하여 box 제안을 통해 의미 마스크 M을 생성하고 I_Phi = FGVP(I, M)로 정밀한 프롬프트를 얻습니다.
- 그리드 기반 키포인트 G로 SAM을 프롭밍하고 NMS를 적용하여 마스크를 얻은 뒤, 가장 작은 외접 박스를 도출하는 검출기 없는 제로샷 파이프라인을 탐구합니다.
- 다양한 프롬프트 형식(crop, box, circle, mask)과 이들의 변형(line, color, grayscale, blur)을 Blur Reverse Mask를 포함하여 평가합니다.
- 지시 표현 작업을 위한 후처리 옵션(Relations, Subtraction)과 부품 탐지를 위한 Hungarian 매칭을 도입합니다.
실험 결과
연구 질문
- RQ1정밀한 시맨틱 마스크가 거친 시각 프롬프트에 비해 제로샷 로컬라이제이션 및 인식에 개선을 가져오는가?
- RQ2어떤 프롬 prompting 디자인(예: Blur Reverse Mask)이 지시 표현 및 부품 탐지 작업에서 최고의 제로샷 성능을 낳는가?
- RQ3 FGVP가 RefCOCO, RefCOCO+, RefCOCOg 및 PACO 데이터셋에서 이전 제로샷 방법들에 비해 어떤 성능 차이를 보이는가?
주요 결과
- Blur Reverse Mask 프롬 prompting은 평가된 데이터셋 전반에서 최고의 제로샷 성능을 달성합니다.
- FGVP는 RedCircle 및 CPT/ReCLIP과 같은 기존 방법들을 평균 3.0%~4.6%의 차이로 상회하였으며, RefCOCO+ testA에서 최대 12.5%의 향상을 보였습니다.
- FGVP는 지시 표현 벤치마크(RefCOCO, RefCOCO+, RefCOCOg)에서 제로샷 최첨단 성능을 달성합니다.
- PACO에서 FGVP는 이전 시각 프롟프팅 방법들보다 부품 탐지 정확도가 더 높습니다.
- 박스 제안이 없는 제로샷 설정에서도 Blur Reverse Mask 프롬 prompting은 일부 거친 프롬프트보다 우수할 수 있습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.