Skip to main content
QUICK REVIEW

[論文レビュー] Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation

Wouter Van Gansbeke, Simon Vandenhende|arXiv (Cornell University)|Jun 13, 2022
Advanced Neural Network Applications被引用数 28
ひとこと要約

MaskDistill は自己教師ありのビジョン変換器を用いてデータ駆動のピクセルグルーピング事前知識としてオブジェクトマスクを掘り起こし、Mask R-CNNで複数のオブジェクトマスクを蒸留し、信頼性の高いマスクを用いて最終的なセマンティック分割モデルを訓練する。パASCALとCOCOで最先端の無監督セマンティックセグメンテーションを達成。

ABSTRACT

The task of unsupervised semantic segmentation aims to cluster pixels into semantically meaningful groups. Specifically, pixels assigned to the same cluster should share high-level semantic properties like their object or part category. This paper presents MaskDistill: a novel framework for unsupervised semantic segmentation based on three key ideas. First, we advocate a data-driven strategy to generate object masks that serve as a pixel grouping prior for semantic segmentation. This approach omits handcrafted priors, which are often designed for specific scene compositions and limit the applicability of competing frameworks. Second, MaskDistill clusters the object masks to obtain pseudo-ground-truth for training an initial object segmentation model. Third, we leverage this model to filter out low-quality object masks. This strategy mitigates the noise in our pixel grouping prior and results in a clean collection of masks which we use to train a final segmentation model. By combining these components, we can considerably outperform previous works for unsupervised semantic segmentation on PASCAL (+11% mIoU) and COCO (+4% mask AP50). Interestingly, as opposed to existing approaches, our framework does not latch onto low-level image cues and is not limited to object-centric datasets. The code and models will be made available.

研究の動機と目的

  • 手作りの事前知識を使わず、データ駆動のピクセルグルーピング事前条件を無監督セマンティックセグメンテーションのために促進する。
  • 自己教師ありのビジョン変換器を活用して、高レベルのオブジェクトと整合するオブジェクトマスクを抽出する。
  • 画像ごとに複数のオブジェクトマスクを蒸留し、高信頼度マスクを用いてセマンティングモデルを訓練する。
  • 信頼度スコアでマスクをフィルタリングし、選択的訓練によりノイズを低減する。
  • 無監督設定でPASCALとCOCOのベンチマークで最先端の結果を示す。

提案手法

  • 自己教師ありビジョン変換器の最終自己注意層からオブジェクトマスクを蒸留し、オブジェクトベースのピクセルグルーピング事前知識を形成する。
  • 最終のMSAブロックのCLSとパッチトークン表現を用いて画像パッチ間の親和性グラフを構築し、識別可能なパッチを特定する。
  • CLSベースの親和性を用いて上位kパッチを選択し、初期オブジェクトマスクを形成し、これらを拡散させて完全なマスクを生成する。
  • 初期マスク上でMask R-CNNモデルを訓練し、画像ごとに複数のオブジェクトマスク候補を信頼度スコア付きで得る。
  • 信頼度閾値でオブジェクトマスクをフィルタリングし、最終的なセマンティックセグメンテーションモデルを訓練するための疑似地上真実を作成する(ResNet-50 バックボーンの DeepLab-v3)。
  • セグメンテーション訓練中にハードピクセルマイニングを用いてクラス不均衡に対処し、細粒度セグメンテーションを改善する。

実験結果

リサーチクエスチョン

  • RQ1データ駆動のボトムアップアプローチで自己教師ありトランスフォーマーを用いることで、無監督セマンティックセグメンテーションに信頼できるオブジェクトマスクを生成できるか。
  • RQ2複数のオブジェクトマスクを蒸留し、信頼度でフィルタリングすることでセグメンテーションモデルの訓練に適した偽の地上真実を高品質化できるか。
  • RQ3MaskDistill は標準ベンチマーク(PASCAL, COCO)で従来の無監督手法と比較してどの程度性能を発揮するか。
  • RQ4手作りの事前知識を回避し、複雑なシーンでもオブジェクト中心のセグメンテーションを実現することは可能か。

主な発見

手法PASCAL val mIoU
MaskDistill58.7 (+0.3)
MaskDistill +CRF62.8 (+3.3)
  • MaskDistill は初期マスクのクラスタリングで39.0% mIoU を達成し、Mask R-CNN と最終訓練の改良を取り入れると45.8% mIoU へ改善。
  • CLSベースの親和性を用いた高信頼度の Mask R-CNN の予測を使用すると、クラスタリング設定で PASCAL の mIoU が 45.8% に、線形分類器評価のクラスタリング表では 58.7% (+0.3) へ向上。
  • 信頼度ベースのマスクフィルタリングを適用するとさらなる改善が得られ、 ablations で 0.9 程度の閾値付近で約 75% の精度のプレート状を示す。
  • このアプローチは PASCAL と COCO で従来の無監督手法を上回り、手作りの事前知識を用いる方法やエンドツーエンドのクラスタリングベースラインに対して大きな利得を示す。
  • MaskDistill はマルチオブジェクトシーンで堅牢な性能を示し、シーン中心の事前知識には依存しない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。