[논문 리뷰] Segment Everything Everywhere All at Once
SEEM은 프롬프트 가능하고 인터랙티브한 모델로, 단일 범용 인터페이스에서 다중 세분화 작업(일반, 지시적, 인터랙티브, 비디오)을 통합하며, 공동 시각-의미 프롬프트 공간과 반복 개선을 위한 메모리 프롬프트를 사용합니다.
In this work, we present SEEM, a promptable and interactive model for segmenting everything everywhere all at once in an image, as shown in Fig.1. In SEEM, we propose a novel decoding mechanism that enables diverse prompting for all types of segmentation tasks, aiming at a universal segmentation interface that behaves like large language models (LLMs). More specifically, SEEM is designed with four desiderata: i) Versatility. We introduce a new visual prompt to unify different spatial queries including points, boxes, scribbles and masks, which can further generalize to a different referring image; ii) Compositionality. We learn a joint visual-semantic space between text and visual prompts, which facilitates the dynamic composition of two prompt types required for various segmentation tasks; iii) Interactivity. We further incorporate learnable memory prompts into the decoder to retain segmentation history through mask-guided cross-attention from decoder to image features; and iv) Semantic-awareness. We use a text encoder to encode text queries and mask labels into the same semantic space for open-vocabulary segmentation. We conduct a comprehensive empirical study to validate the effectiveness of SEEM across diverse segmentation tasks. Notably, our single SEEM model achieves competitive performance across interactive segmentation, generic segmentation, referring segmentation, and video object segmentation on 9 datasets with minimum 1/100 supervision. Furthermore, SEEM showcases a remarkable capacity for generalization to novel prompts or their combinations, rendering it a readily universal image segmentation interface.
연구 동기 및 목표
- 다양한 프롬프트와 작업을 처리하는 범용 세분화 인터페이스의 필요성을 동기화한다.
- 공유 시각-의미 공간에 공간 질의, 텍스트, 기억된 이력을 인코딩하는 프롬프트 스킴을 제안한다.
- 제로샷 프롬프트 구성, 인터랙티비티, 및 open-set semantics를 지원하는 경량 디코더 기반 모델 SEEM을 개발한다.
- SEEM의 panoptic, instance, semantic, referring, interactive, 및 비디오 세분화 작업에서의 경쟁력 있는 성능을 시연한다.
제안 방법
- 모든 프롬프트 유형(포인트, 박스, 낙서, 마스크, 텍스트, 참조 영역)을 시각 샘플러와 텍스트 인코더를 통해 공동 시각-의미 공간으로 인코딩한다.
- 쿼리와 다중 모달 프롬프트 간 교차 어텐션이 있는 Transformer 기반 인코더-디코더(SEEM-Decoder)를 사용하여 마스크 및 클래스 임베딩을 생성한다.
- 마스크 가이드 교차 어텐션을 통해 이력을 전달하는 메모리 프롬프트를 도입하여 인터랙티브한 정제를 가능하게 한다.
- 시각적 프롬프트와 텍스트 프롬프트를 출력 임베딩에 매칭하여 구성형 프롬프트를 가능하게 하고 프롬프트의 제로샷 조합을 허용한다.
- panoptic, referring, interactive 세분화 손실의 선형 결합으로 학습하여 통일된 프롬프트와 출력을 학습한다.
실험 결과
연구 질문
- RQ1SEEM이 오픈-vocabulary 일반 세분화, 지시 세분화, 인터랙티브 세분화를 위한 단일 모델로 작동할 수 있는가?
- RQ2공동 시각-의미 프롬프트 공간이 추론 시 텍스트, 시각, 메모리 등 프롬프트 유형 간의 구성형 프롬 prompting을 효과적으로 가능하게 하는가?
- RQ3다수 라운드에 걸친 인터랙티브 세분화의 효율성과 정확도에 메모리 프롬 prompting이 어떤 영향을 미치는가?
- RQ4panoptic, instance, semantic, 비디오 객체 세분화에서 SEEM의 성능은 전문 모델에 비해 어떠한가?
- RQ5제로샷 시나리오에서 새로운 프롬프트나 프롬프트 조합에 SEEM이 얼마나 잘 일반화되는가?
주요 결과
- SEEM은 9개 데이터셋에서 제한된 감독으로도 panoptic, instance, semantic, referring, interactive, 비디오 세분화에서 경쟁력 있는 성능을 달성한다.
- 시각적 프롬프트와 구성형 프롬 prompting의 도입은 지시 세분화 정확도에서 큰 향상을 가져오며, 특히 프롬프트 조합일 때 그렇다.
- 메모리 프롬프트는 가벼운 디코딩으로 이력 정보를 반영한 마스크 정제를 가능하게 하여 인터랙티브 효율을 향상시킨다.
- SEEM은 비디오 특화 학습 없이 제로샷 비디오 객체 세분화를 시연하며, DAVIS 데이터셋에서의 인터랙티브 VOS를 포함한다.
- SEEM은 인터랙티브 세분화에서 여러 일반적 또는 프롬프트 가능한 기준선보다 우수하며, 강한 오픈-vocabulary 및 교차 도메인 일반화를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.