[논문 리뷰] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
Set-of-Mark (SoM) 프롬 prompting은 의미론적으로 의미 있는 이미지 영역에 해석 가능한 표식을 오버레이하여 제로샷 설정에서 GPT-4V의 미세한 시각적 기준화를 극적으로 향상시킵니다.
We present Set-of-Mark (SoM), a new visual prompting method, to unleash the visual grounding abilities of large multimodal models (LMMs), such as GPT-4V. As illustrated in Fig. 1 (right), we employ off-the-shelf interactive segmentation models, such as SEEM/SAM, to partition an image into regions at different levels of granularity, and overlay these regions with a set of marks e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can answer the questions that require visual grounding. We perform a comprehensive empirical study to validate the effectiveness of SoM on a wide range of fine-grained vision and multimodal tasks. For example, our experiments show that GPT-4V with SoM in zero-shot setting outperforms the state-of-the-art fully-finetuned referring expression comprehension and segmentation model on RefCOCOg. Code for SoM prompting is made public at: https://github.com/microsoft/SoM.
연구 동기 및 목표
- GPT-4V의 미세한 시각적 기준화 능력의 격차를 동기 부여하고 해결한다.
- 미세 조정 없이 영역 기반 기준화를 가능하게 하는 Set-of-Mark 프롬 prompting을 도입한다.
- 일련의 비전 과제와 벤치마크에서 SoM의 효과를 입증한다.
제안 방법
- 오프더셀프 세그먼테이션 모델(e.g., MaskDINO, SEEM, SAM, Semantic-SAM)들을 사용하여 이미지를 의미론적으로 의미 있는 영역으로 분할한다.
- 각 영역에 구별 가능한 표식(숫자, 알파벳, 상자, 마스크)을 오버레이하여 마크드 이미지 I^m을 생성한다.
- 갈등 인지 알고리즘을 사용하여 작은 영역부터 우선순위를 두고 거리 변환을 이용해 표식의 위치를 배치하여 표식을 생성하고 배치한다.
- 마크드 영역을 참조하는 일반 텍스트 또는 인터리드(prompts)로 GPT-4V를 프롬프트하여 시각적 콘텐츠를 텍스트적으로 및 공간적으로 기준화한다.
- 원하는 경우 사용자 주도 또는 자동 생성 표식을 허용하고 새로운 채팅 창을 활용하여 제로샷 평가에서 컨텍스트 누수를 방지한다.
- 오픈 보캐이블 세그먼테이션, 지칭 세그먼테이션, 구/구문 기준화, 영상 객체 세그먼테이션 및 관련 기준화 벤치마크 등 비전 과제에서 SoM을 평가한다.
실험 결과
연구 질문
- RQ1SoM 프롬 prompts가 모델 미세 조정 없이도 시각적 콘텐츠의 위치별 기준화를 가능하게 하는가?
- RQ2다양한 표식 유형(숫자, 상자, 마스크)과 표식 배치 전략이 과제별 기준화 성능에 어떤 영향을 미치는가?
- RQ3지상 진실(segmentation) 마스크 대 예측 마스크를 사용하는 경우 기준화 정확도에 어떤 차이가 있는가?
- RQ4SoM이 미세하게 조정된 전문 모델과의 성능 격차를 어느 정도 해소하는가?
주요 결과
- SoM은 GPT-4V 기준화를 크게 향상시키며 특정 제로샷 과제(예: RefCOCOg)에서 다수의 최첨단 전문가를 능가하는 경우가 있다.
- 시각적으로 해석 가능한 일련의 표식을 사용하면 GPT-4V가 영역 기반 텍스트를 생성하고 표식과 대응하는 이미지 영역을 매핑할 수 있다(r_k ↔ m_k ↔ text_k).
- 표식에 상자를 추가하면 구문 기준화 과제에서 성능이 더욱 향상되고, 지상 진실 마스크를 활용하면 지칭 세그먼테이션 결과가 크게 향상된다(예: RefCOCOg에서 +14.5 mIoU).
- SoM은 선택된 과제에서 일부 완전하게 미세 조정된 전문 모델에 근접하거나 이를 능가하는 제로샷 성능을 가능하게 하며, 여러 프레임을 결합할 때 DAVIS2017에서 최상의 추적 성능을 보인다.
- 정성 분석 결과 데이터셋 주석 오류와 비중심적인 표식 배치가 기준화에 영향을 미칠 수 있음을 보여주며, 표식 배치 및 프롬프팅 전략의 개선 여지를 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.