QUICK REVIEW

[논문 리뷰] SegGPT: Segmenting Everything In Context

Xinlong Wang, Xiaosong Zhang|arXiv (Cornell University)|2023. 04. 06.

Domain Adaptation and Few-Shot Learning인용 수 61

한 줄 요약

SegGPT는 다양한 세분화(task)들을 하나의 일반화 모델로 통합하여 컨텍스트 학습 프레임워크를 통해 이미지나 비디오에서 인스턴스, 물체가 아닌 영역(stuff), 부분, 윤곽 및 텍스트를 태스크 특화 아키텍처 없이 분할할 수 있게 한다. 무작위 컨텍스트 컬러링과 컨텍스트 기반 프롬팅을 사용하여 컨텍스트 추론을 통해 다양한 세분화 작업을 수행한다.

ABSTRACT

We present SegGPT, a generalist model for segmenting everything in context. We unify various segmentation tasks into a generalist in-context learning framework that accommodates different kinds of segmentation data by transforming them into the same format of images. The training of SegGPT is formulated as an in-context coloring problem with random color mapping for each data sample. The objective is to accomplish diverse tasks according to the context, rather than relying on specific colors. After training, SegGPT can perform arbitrary segmentation tasks in images or videos via in-context inference, such as object instance, stuff, part, contour, and text. SegGPT is evaluated on a broad range of tasks, including few-shot semantic segmentation, video object segmentation, semantic segmentation, and panoptic segmentation. Our results show strong capabilities in segmenting in-domain and out-of-domain targets, either qualitatively or quantitatively.

연구 동기 및 목표

데이터 유형(의미적, 인스턴스, 팬오픽, 부분, 텍스트, 항공/의료 등)에 걸쳐 다양한 세분화 태스크를 해결할 수 있는 단일 일반화 모델을 구축하는 것을 목표로 한다.
모든 세분화 데이터를 모델이 컬링으로 재구성할 수 있는 공통 이미지 형식 표현으로 변환하여 컨텍스트 학습을 활용한다.
다양한 데이터 도메인에 대해 유연한 세분화 능력을 가능하게 하기 위해 무작위 컬러링, 컨텍스트 엔sembl링, 컨텍스트 튜닝 등의 학습 및 추론 전략을 개발한다.
이미지와 비디오에서 도메인 내 및 도메인 외 세분화 벤치마크에서 모델의 성능을 시연하되 모든 작업에서 최첨단 결과를 기대하지 않는다.

제안 방법

Painter 프레임워크 내에서 세분화 작업을 컨텍스트 이미지 컬러링 문제로 재구성하고, 바닐라 ViT 백본과 smooth-L1 손실을 사용한다.
고정된 색 매핑에 의존하는 것을 방지하고 맥락 기반 작업 완성을 강제하기 위해 무작위 컬러링 스킴을 도입한다.
아키텍처 변경 없이 의미적, 인스턴스, 팬오픽, 부분 및 기타 세분화 데이터를 통합하기 위해 컨텍스트 인컨텍스트 학습과 혼합 맥락(train)을 사용한다.
추론 중 다중 예시에서 정보를 융합하기 위한 컨텍스트 엔셈블 전략(공간 엔셈블, 피처 엔셈블)을 제안한다.
특정 데이터 세트나 장면에 적응하도록 학습 가능한 입력-맥락 텐서를 최적화하고 모델을 동결하여 컨텍스트 튜닝을 가능하게 한다.

실험 결과

연구 질문

RQ1단일 일반화 모델이 이미지와 비디오에서 의미적, 인스턴스, 팬오픽, 부분, 윤곽, 텍스트 등 광범위한 세분화 작업을 수행할 수 있는가?
RQ2무작위 컨텍스트 컬러링과 혼합 맥락 학습이 도메인 외 세분화 작업에 대한 일반화를 향상시키는가?
RQ3컨텍스트 엔셈블과 컨텍스트 튜닝이 적은 샷 및 비디오 객체 세분화 벤치마크에서의 성능에 어떤 영향을 미치는가?
RQ4다양한 데이터셋에 걸쳐 단일 SegGPT 모델을 사용할 때 도메인 내 성능과 일반화 간의 trade-off는 무엇인가?

주요 결과

SegGPT는 적은 샷 의미적 분할 벤치마크에서 경쟁력 있는 결과를 보이며, 도메인 내외 설정에서 일부 특수화 및 일반화 베이스라인을 능가한다.
비디오 객체 분할에서 SegGPT는 비디오 데이터에 대해 학습되지 않았더라도 특수화 방법에 비해 경쟁력 있는 점수를 얻고, 컨텍스트 엔셈블은 프레임 수준 정확도를 향상시킨다.
ADE20K 의미적 분할 및 COCO 팬오픽 분할에서 컨텍스트 튜닝으로 SegGPT는 전문 방법과 비교해 경쟁력 있거나 낮은 성능을 보이며, 랜덤 색칠의 trade-off를 강조한다.
공간 엔셈블과 피처 엔셈블의 컨텍스트 엔셈블 방식은 강건한 이득을 제공하며, 고해상도 비디오 데이터세트에서 일반적으로 피처 엔셈블이 더 나은 성능을 보인다.
모델은 태스크별 훈련 없이도 부분/객체 분할, 텍스트 분할, 비디오 객체 분할 등 광범위한 작업에서 강력한 질적 능력을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.