QUICK REVIEW

[논문 리뷰] Unsupervised Semantic Segmentation by Distilling Feature Correspondences

Mark F. Hamilton, Zhoutong Zhang|arXiv (Cornell University)|2022. 03. 16.

Multimodal Machine Learning Applications인용 수 114

한 줄 요약

STEGO는 사전 학습된 비지도 특징 대응을 컴팩트하고 이산적인 세그먼테이션 헤드로 증류하여 라벨 없이 self-supervised 특징으로부터 학습해 CocoStuff와 Cityscapes에서 최첨단 비지도 의미론적 분할을 달성한다.

ABSTRACT

Unsupervised semantic segmentation aims to discover and localize semantically meaningful categories within image corpora without any form of annotation. To solve this task, algorithms must produce features for every pixel that are both semantically meaningful and compact enough to form distinct clusters. Unlike previous works which achieve this with a single end-to-end framework, we propose to separate feature learning from cluster compactification. Empirically, we show that current unsupervised feature learning frameworks already generate dense features whose correlations are semantically consistent. This observation motivates us to design STEGO ($ extbf{S}$elf-supervised $ extbf{T}$ransformer with $ extbf{E}$nergy-based $ extbf{G}$raph $ extbf{O}$ptimization), a novel framework that distills unsupervised features into high-quality discrete semantic labels. At the core of STEGO is a novel contrastive loss function that encourages features to form compact clusters while preserving their relationships across the corpora. STEGO yields a significant improvement over the prior state of the art, on both the CocoStuff ($ extbf{+14 mIoU}$) and Cityscapes ($ extbf{+9 mIoU}$) semantic segmentation challenges.

연구 동기 및 목표

비지도 딥 특징이 의미적으로 일관된 상관 패턴을 나타낸다는 것을 증명한다.
Transformer 기반 아키텍처인 STEGO를 도입하여 특징 대응을 이산적 세그먼트 라벨로 증류한다.
증류 방식이 CocoStuff와 Cityscapes에서 최첨단 비지도 분할을 달성함을 보여준다.
설계 선택 및 학습 신호를 정당화하기 위한 애블레이션을 제공한다.

제안 방법

코사인 유사도를 사용하여 이미지 특징 맵 간의 밀집한 특징 대응 텐서 F를 계산한다.
세그먼테이션 특징 텐서 S를 정의하고 요소별 상호작용을 통해 S를 F와 일치시키는 상관 손실 L_corr을 정의한다.
세그먼테이션 신호를 0으로 클램프하고 공간 중심화를 적용하여 학습을 안정화하고 작은 물체 처리를 개선한다.
고정된 백본에서 self, KNN, random pair 손실을 사용하여 경량 세그먼테이션 헤드를 학습시키며 간단한 손실 L = lambda_self L_corr(x,x,b_self) + lambda_knn L_corr(x,x_knn,b_knn) + lambda_rand L_corr(x_rand,b_rand)를 적용한다.
증류된 특징을 미니배치 K-means로 클러스터링하고 CRF 후처리로 정제하여 최종 의미 맵을 얻는다.
Five-crop 학습과 CRF 정제가 결과와 세부사항 회복을 향상시킨다.

실험 결과

연구 질문

RQ1비지도 특징이 이미지 간에 의미 라벨과 일치하는 상관 패턴을 보이는가?
RQ2경량 세그먼테이션 헤드가 이러한 특징 대응을 이산적이고 클러스터에 친화적인 표현으로 증류할 수 있는가?
RQ3기존 방법과 비교하여 표준 비지도 의미 분할 벤치마크에서 STEGO의 성능은 어떠한가?
RQ4어떤 아키텍처 및 학습 선택이 성능에 가장 큰 영향을 미치는가(애블레이션 결과)?

주요 결과

STEGO는 CocoStuff에서 비지도 분할의 최첨단 성능을 달성하며 기존 연구 대비 +14 mIoU를 기록한다.
STEGO는 Cityscapes에서 비지도 분할의 최첨단 성능을 달성하며 기존 연구 대비 +9 mIoU를 기록한다.
CocoStuff에서 STEGO는 비지도 Acc 56.9 및 mIoU 28.2를 보고; linear-probe Acc 76.1 및 mIoU 41.0.
Cityscapes에서 STEGO는 비지도 Acc 73.2 및 mIoU 21.0를 보고한다.
PiCIE 및 다른 baselines와 비교할 때, STEGO는 5-crop 학습과 CRF 후처리의 도움으로 더 강한 클러스터링 품질 및 더 정교한 물체 세부 정보를 얻는다.
애블레이션은 0-clamp, 공간 중심화(SC), 5-crop, CRF가 모두 성능 향상에 기여함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.