QUICK REVIEW

[논문 리뷰] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

Jianwei Yang, Hao Zhang|arXiv (Cornell University)|2023. 10. 17.

Multimodal Machine Learning Applications인용 수 23

한 줄 요약

Set-of-Mark (SoM) 프롬 prompting은 의미론적으로 의미 있는 이미지 영역에 해석 가능한 표식을 오버레이하여 제로샷 설정에서 GPT-4V의 미세한 시각적 기준화를 극적으로 향상시킵니다.

ABSTRACT

We present Set-of-Mark (SoM), a new visual prompting method, to unleash the visual grounding abilities of large multimodal models (LMMs), such as GPT-4V. As illustrated in Fig. 1 (right), we employ off-the-shelf interactive segmentation models, such as SEEM/SAM, to partition an image into regions at different levels of granularity, and overlay these regions with a set of marks e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can answer the questions that require visual grounding. We perform a comprehensive empirical study to validate the effectiveness of SoM on a wide range of fine-grained vision and multimodal tasks. For example, our experiments show that GPT-4V with SoM in zero-shot setting outperforms the state-of-the-art fully-finetuned referring expression comprehension and segmentation model on RefCOCOg. Code for SoM prompting is made public at: https://github.com/microsoft/SoM.

연구 동기 및 목표

GPT-4V의 미세한 시각적 기준화 능력의 격차를 동기 부여하고 해결한다.
미세 조정 없이 영역 기반 기준화를 가능하게 하는 Set-of-Mark 프롬 prompting을 도입한다.
일련의 비전 과제와 벤치마크에서 SoM의 효과를 입증한다.

제안 방법

오프더셀프 세그먼테이션 모델(e.g., MaskDINO, SEEM, SAM, Semantic-SAM)들을 사용하여 이미지를 의미론적으로 의미 있는 영역으로 분할한다.
각 영역에 구별 가능한 표식(숫자, 알파벳, 상자, 마스크)을 오버레이하여 마크드 이미지 I^m을 생성한다.
갈등 인지 알고리즘을 사용하여 작은 영역부터 우선순위를 두고 거리 변환을 이용해 표식의 위치를 배치하여 표식을 생성하고 배치한다.
마크드 영역을 참조하는 일반 텍스트 또는 인터리드(prompts)로 GPT-4V를 프롬프트하여 시각적 콘텐츠를 텍스트적으로 및 공간적으로 기준화한다.
원하는 경우 사용자 주도 또는 자동 생성 표식을 허용하고 새로운 채팅 창을 활용하여 제로샷 평가에서 컨텍스트 누수를 방지한다.
오픈 보캐이블 세그먼테이션, 지칭 세그먼테이션, 구/구문 기준화, 영상 객체 세그먼테이션 및 관련 기준화 벤치마크 등 비전 과제에서 SoM을 평가한다.

실험 결과

연구 질문

RQ1SoM 프롬 prompts가 모델 미세 조정 없이도 시각적 콘텐츠의 위치별 기준화를 가능하게 하는가?
RQ2다양한 표식 유형(숫자, 상자, 마스크)과 표식 배치 전략이 과제별 기준화 성능에 어떤 영향을 미치는가?
RQ3지상 진실(segmentation) 마스크 대 예측 마스크를 사용하는 경우 기준화 정확도에 어떤 차이가 있는가?
RQ4SoM이 미세하게 조정된 전문 모델과의 성능 격차를 어느 정도 해소하는가?

주요 결과

SoM은 GPT-4V 기준화를 크게 향상시키며 특정 제로샷 과제(예: RefCOCOg)에서 다수의 최첨단 전문가를 능가하는 경우가 있다.
시각적으로 해석 가능한 일련의 표식을 사용하면 GPT-4V가 영역 기반 텍스트를 생성하고 표식과 대응하는 이미지 영역을 매핑할 수 있다(r_k ↔ m_k ↔ text_k).
표식에 상자를 추가하면 구문 기준화 과제에서 성능이 더욱 향상되고, 지상 진실 마스크를 활용하면 지칭 세그먼테이션 결과가 크게 향상된다(예: RefCOCOg에서 +14.5 mIoU).
SoM은 선택된 과제에서 일부 완전하게 미세 조정된 전문 모델에 근접하거나 이를 능가하는 제로샷 성능을 가능하게 하며, 여러 프레임을 결합할 때 DAVIS2017에서 최상의 추적 성능을 보인다.
정성 분석 결과 데이터셋 주석 오류와 비중심적인 표식 배치가 기준화에 영향을 미칠 수 있음을 보여주며, 표식 배치 및 프롬프팅 전략의 개선 여지를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.