QUICK REVIEW

[논문 리뷰] GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models

Liang Chen, Wenguan Wang|arXiv (Cornell University)|2022. 10. 05.

Domain Adaptation and Few-Shot Learning인용 수 61

한 줄 요약

GMMSeg는 특징 분포를 가우시안 혼합으로 모델링하여 클래스-조건부 특징 밀도를 활용하는 밀집형 생성 분류기를 시맨틱 분할에 도입하고, 특징 추출기가 판별적으로 학습되는 동안 온라인 Sinkhorn EM으로 학습된다.

ABSTRACT

Prevalent semantic segmentation solutions are, in essence, a dense discriminative classifier of p(class|pixel feature). Though straightforward, this de facto paradigm neglects the underlying data distribution p(pixel feature|class), and struggles to identify out-of-distribution data. Going beyond this, we propose GMMSeg, a new family of segmentation models that rely on a dense generative classifier for the joint distribution p(pixel feature,class). For each class, GMMSeg builds Gaussian Mixture Models (GMMs) via Expectation-Maximization (EM), so as to capture class-conditional densities. Meanwhile, the deep dense representation is end-to-end trained in a discriminative manner, i.e., maximizing p(class|pixel feature). This endows GMMSeg with the strengths of both generative and discriminative models. With a variety of segmentation architectures and backbones, GMMSeg outperforms the discriminative counterparts on three closed-set datasets. More impressively, without any modification, GMMSeg even performs well on open-world datasets. We believe this work brings fundamental insights into the related fields.

연구 동기 및 목표

데이터 분포를 포착하기 위해 p(pixel feature|class)를 모델링하여 판별적 p(class|pixel feature)를 넘어서는 동기를 제시한다.
각 클래스에 대해 p(x|c)라는 클래스-조건부 밀도를 모델링하기 위한 GMM 기반 분류기를 개발한다.
GMM 분류기를 생성적으로 최적화하면서 판별적 특징 추출기를 공동으로 학습하여 엔드-투-엔드 학습을 가능하게 한다.
아키텍처 변경 없이 닫힌 집합 데이터셋에서의 세분화 성능을 개선하고 개방형 세계 이상 탐지 세분화를 가능하게 한다.
생성적 밀도 모델링과 판별적 표현 학습을 결합하는 원리적 프레임워크를 제공한다.

제안 방법

클래스-조건부 밀도 p(x|c)를 클래스당 M개의 구성요소를 가진 가우시안 혼합으로 모델링한다.
학습 중 온라인으로 각 클래스 c에 대해 GMM 매개변수 φ_c를 추정하기 위해 Sinkhorn 기반 재구성으로 EM을 사용한다.
계산량 감소를 위해 대각 공분산으로 클래스 밀도를 표현한다.
GMM 평가 전에 1x1 합성곱으로 픽셀 특징을 D=64로 압축한다.
GMM에서 도출된 p(c|x)를 최대화하여 특징 추출기 f_theta를 판별적으로 학습하는 한편, EM을 모멘텀 방식(τ=0.999)으로 GMM 매개변수 φ_c를 업데이트한다.
배치 간 대규모 EM을 지원하기 위해 외부 메모리/특징 큐를 활용한다.

실험 결과

연구 질문

RQ1생성적 클래스-조건부 밀도 모델이 전통적인 판별적 소프트맥스 분류기보다 세분화를 향상시킬 수 있는가?
RQ2온라인 EM 기반 GMM 최적화를 엔드-투-엔드 판별적 특징 학습과 통합하면 닫힌 집합 데이터셋에서 견고한 성능이 나오는가?
RQ3GMMSeg가 아키텍처나 학습 프로토콜을 수정하지 않고도 개방형 세계 및 이상 세분화를 처리할 수 있는가?
RQ4클래스당 다성분 가우시안 혼합이 단일 가우시안(단일 분포) 또는 순수 판별적 모델과 비교하여 세분화 작업에서 어떤 차이가 있는가?

주요 결과

GMMSeg는 다수의 아키텍처와 백본에서 세 개의 닫힌 집합 데이터셋에 대해 소프트맥스 기반 판별 모델보다 성능이 우수하다.
해당 방법은 아키텍처 변경이나 추가 보정 없이도 의미 있는 이상/개방형 세계 성능을 달성한다.
하이브리드 학습 방식은 ADE20K, Cityscapes, COCO-Stuff 데이터셋에서 각각 mIoU가 0.6–1.7个百分点 증가를 보인다(초록에 보고).
해당 방법은 p(x|c)의 명시적 모델링으로 이상분포/이상 입력에 대한 밀도 기반 측정을 자연스럽게 제공한다.
GMMSeg는 현대 세분화 아키텍처들(DeepLabV3+, OCRNet, UperNet, SegFormer)과 백본들(ResNet, HRNet, Swin, MiT)과 호환된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.