[논문 리뷰] Hierarchical Open-vocabulary Universal Image Segmentation
HIPIE는 계층적이고 오픈-보캐뷸러리 universal 분할 프레임워크로, 배경/전경 디코더를 구분하고 텍스트–이미지 융합을 분리하여 stuff 대 things를 구분하며, 40개가 넘는 데이터셋에서 시맨틱, 인스턴스, 팬옵틱, 파트 및 참고(segment) 분할 태스크에 대해 최첨단 성능을 달성한다.
Open-vocabulary image segmentation aims to partition an image into semantic regions according to arbitrary text descriptions. However, complex visual scenes can be naturally decomposed into simpler parts and abstracted at multiple levels of granularity, introducing inherent segmentation ambiguity. Unlike existing methods that typically sidestep this ambiguity and treat it as an external factor, our approach actively incorporates a hierarchical representation encompassing different semantic-levels into the learning process. We propose a decoupled text-image fusion mechanism and representation learning modules for both "things" and "stuff". Additionally, we systematically examine the differences that exist in the textual and visual features between these types of categories. Our resulting model, named HIPIE, tackles HIerarchical, oPen-vocabulary, and unIvErsal segmentation tasks within a unified framework. Benchmarked on over 40 datasets, e.g., ADE20K, COCO, Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW and SeginW, HIPIE achieves the state-of-the-art results at various levels of image comprehension, including semantic-level (e.g., semantic segmentation), instance-level (e.g., panoptic/referring segmentation and object detection), as well as part-level (e.g., part/subpart segmentation) tasks. Our code is released at https://github.com/berkeley-hipie/HIPIE.
연구 동기 및 목표
- 다중 수준의 장면 세분성과 고유한 분할 모호성을 존중하는 오픈-보캐뷸러리 이미지 분할의 필요성을 제기한다.
- 단일 모델에서 시맨틱, 인스턴스, 팬옵틱, 파트, 및 레퍼링(segmentation)을 모두 다루는 통합 프레임워크를 제안한다.
- stuff(배경) 대 things(전경)에 대한 표현 학습과 텍스트–이미지 융합을 분리하여 판별 특성 학습을 향상시킨다.
- 인스턴스 및 파트 수준 프롬프트를 결합하여 오픈-보캐뷸러리 계층을 지원하는 계층적 분할을 가능하게 한다.
- 40개가 넘는 데이터셋에 대해 HIPIE를 광범위하게 벤치마킹하여 세분성 수준 전반에서 최첨단 성능을 확립한다.
제안 방법
- 세 부분 아키텍처를 사용: 텍스트-이미지 특성 추출, Things와 Stuff용 이중 디코더, 오픈-보캐뷸러리 라벨링을 위한 텍스트 프롬프트 가이드 프로젝션.
- 시각적 특성(F_v)과 텍스트 특성(F_t)을 (F_v', F_t')로 융합하기 위해 양방향 교차 주의(Bi-Xattn)를 이용한 조기 융합을 적용한다.
- 마스크 생성을 두 개의 독립적인 디코더로 분리한다: ThingDecoder(Deformable DETR 기반에 DINO-denoising 헤드)와 StuffDecoder(MaskDINO 스타일).
- 독립적인 매칭 전략으로 학습한다: things에는 simOTA, stuffs에는 Hungarian 매칭, 더불어 손실 항들(분류, 마스크, 박스, dice, focal, L1, GIoU).
- 표준 로짓과 CLIP 기반 판별 로짓을 학습된 융합으로 결합하여 오픈-보캐뷸러리 분류를 수행한다(p_final ∝ p1^λ p2^(1−λ)).
- 다른 세분성(인스턴스 및 파트) 라벨을 연결하고 학습 중 두 라벨 유형으로 감독하며, 추론은 인스턴스 및 파트 마스크 생성을 위해 별도의 프롬프트를 사용한다.
실험 결과
연구 질문
- RQ1시맨틱, 인스턴스, 팬옵틱, 파트 태스크를 단일 모델에서 오픈-보캐뷸러리 분할로 어떻게 통합할 수 있는가?
- RQ2stuff(배경) 대 things(전경)에 대한 표현 학습과 텍스트-이미지 융합의 분리가 여러 세분성 수준에서 분할 품질을 향상시키는가?
- RQ3계층적 프롬프트가 미리 정의된 계층 구조를 필요로 하지 않고도 오픈-보캐뷸러리 파트 및 하위 파트 분할을 가능하게 할 수 있는가?
- RQ4오픈-보캐뷸러리 보편 분할를 위한 최상의 성능을 제공하는 융합 및 디코더 아키텍처는 무엇인가?
- RQ5HIPIE가 다양한 데이터셋과 태스크에서 이전 SOTA 방법들과 비교하여 어떤 성능을 보이는가?
주요 결과
- HIPIE는 시맨틱, 인스턴스, 팬옵틱, 파트, 참조 분할 벤치마크에서 최첨단 결과를 달성한다.
- 분리된 디코더 및 융합 전략을 갖춘 stuff 대 things 파이프라인이 다수 태스크에서 통합 디코더보다 우수하다.
- Bi-Xattn 기반 융합과 잔여 연결의 융합은 이미지와 텍스트 특성 간 정렬을 향상시킨다.
- 계층적 프롬프트는 훈련 중에 본 적이 있는 계층 라벨이 없어도 파트 및 하위 파트 수준의 분할을 가능하게 한다.
- CLIP 로짓과의 결합을 통한 오픈-보캐뷸러리 통합은 제로샷 및 오픈-셋 성능을 향상시킨다.
- HIPIE는 ADE20K, COCO, Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW, SeginW 등을 포함한 40개가 넘는 데이터셋에서 강력한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.