QUICK REVIEW

[論文レビュー] Unsupervised Semantic Segmentation by Distilling Feature Correspondences

Mark F. Hamilton, Zhoutong Zhang|arXiv (Cornell University)|Mar 16, 2022

Multimodal Machine Learning Applications被引用数 114

ひとこと要約

STEGOは事前学習済みの教師なし特徴対応をコンパクトな離散的セグメンテーションヘッドへ蒸留し、ラベルなしの自己教師付き特徴から学習することで CocoStuff および Cityscapes で最新の教師なし意味セグメンテーションを達成。

ABSTRACT

Unsupervised semantic segmentation aims to discover and localize semantically meaningful categories within image corpora without any form of annotation. To solve this task, algorithms must produce features for every pixel that are both semantically meaningful and compact enough to form distinct clusters. Unlike previous works which achieve this with a single end-to-end framework, we propose to separate feature learning from cluster compactification. Empirically, we show that current unsupervised feature learning frameworks already generate dense features whose correlations are semantically consistent. This observation motivates us to design STEGO ($ extbf{S}$elf-supervised $ extbf{T}$ransformer with $ extbf{E}$nergy-based $ extbf{G}$raph $ extbf{O}$ptimization), a novel framework that distills unsupervised features into high-quality discrete semantic labels. At the core of STEGO is a novel contrastive loss function that encourages features to form compact clusters while preserving their relationships across the corpora. STEGO yields a significant improvement over the prior state of the art, on both the CocoStuff ($ extbf{+14 mIoU}$) and Cityscapes ($ extbf{+9 mIoU}$) semantic segmentation challenges.

研究の動機と目的

Unsure: この文は「Demonstrate that unsupervised deep features exhibit semantically consistent correlation patterns.」の日本語訳として適切な表現で統一します。
STEGOを紹介し、特徴対応を離散的なセグメンテーションラベルへ蒸留するトランスフォーマー系アーキテクチャを提案する。
蒸留アプローチがCocoStuffとCityscapesで最新の教師なしセグメンテーションを達成することを示す。
設計選択と学習信号を正当化するアブレーションを提供する。

提案手法

画像特徴マップ間のコサイン類似度を用いて密な特徴対応テンソルFを計算する。
セグメンテーション特徴テンソルSを定義し、要素ごとの相互作用を介してSとFを整列させる相関損失L_corrを定義する。
セグメンテーション信号をゼロにクリップし、学習を安定化させ小さな物体の処理を改善するために空間的センタリングを適用する。
自己、KNN、ランダムペア損失を用いて凍結済みバックボーン上で軽量なセグメンテーションヘッドを訓練し、シンプルな損失L = lambda_self L_corr(x,x,b_self) + lambda_knn L_corr(x,x_knn,b_knn) + lambda_rand L_corr(x_rand,b_rand)を適用する。
蒸留特徴をミニバッチK-meansでクラスタリングし、CRF後処理で精度を高めて最終的な意味マップを得る。
5-Crop訓練とCRF再精製は結果と細部の回復を改善する。

実験結果

リサーチクエスチョン

RQ1教師なし特徴は画像を横断して意味ラベルと整合する相関パターンを示すか？
RQ2軽量なセグメンテーションヘッドはこれらの特徴対応を離散的でクラスタに適した表現へ蒸留できるか？
RQ3STEGOは従来手法と比較して標準的な教師なし意味セグメンテーションベンチマークでどのように性能を発揮するか？
RQ4どのアーキテクチャ的および訓練上の選択が性能に最も影響を与えるか（アブレーションの結果）？

主な発見

STEGOはCocoStuffで他の手法を+14 mIoU上回り、教師なしセグメンテーションの最先端を達成。
STEGOはCityscapesで他の手法を+9 mIoU上回り、教師なしセグメンテーションの最先端を達成。
CocoStuffで、STEGOは教師なしAcc 56.9とmIoU 28.2を報告; 線形プローブAcc 76.1とmIoU 41.0。
Cityscapesで、STEGOは教師なしAcc 73.2とmIoU 21.0を報告。
PiCIEおよび他のベースラインと比較して、STEGOは5-Crop訓練とCRF後処理の助けを得てクラスタリング品質と細部の表現力が向上。
アブレーションにより0-クリップ、空間センタリング(SC)、5-Crop、およびCRFがいずれも性能向上に寄与することが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。