Skip to main content
QUICK REVIEW

[論文レビュー] Prototype Mixture Models for Few-shot Semantic Segmentation

Boyu Yang, Chang Liu|arXiv (Cornell University)|Aug 10, 2020
Domain Adaptation and Few-Shot Learning参考文献 38被引用数 25
ひとこと要約

本稿では、期待値最大化(EM)アルゴリズムを用いてサポート画像から複数のプロトタイプを学習することで、多様な空間的およびチャネルワイドな意味を捉える、新規の少サンプルセマンティックセグメンテーション手法であるプロトタイプ混合モデル(PMMs)を提案する。PMMsを二重一致および畳み込み機構における表現および分類器として扱うことで、計算コストをほとんど増加させずに、MS-COCOの5ショットセグメンテーションで最大5.82%の絶対的向上を達成し、セグメンテーション精度を顕著に向上させる。

ABSTRACT

Few-shot segmentation is challenging because objects within the support and query images could significantly differ in appearance and pose. Using a single prototype acquired directly from the support image to segment the query image causes semantic ambiguity. In this paper, we propose prototype mixture models (PMMs), which correlate diverse image regions with multiple prototypes to enforce the prototype-based semantic representation. Estimated by an Expectation-Maximization algorithm, PMMs incorporate rich channel-wised and spatial semantics from limited support images. Utilized as representations as well as classifiers, PMMs fully leverage the semantics to activate objects in the query image while depressing background regions in a duplex manner. Extensive experiments on Pascal VOC and MS-COCO datasets show that PMMs significantly improve upon state-of-the-arts. Particularly, PMMs improve 5-shot segmentation performance on MS-COCO by up to 5.82\% with only a moderate cost for model size and inference speed.

研究の動機と目的

  • グローバル平均プーリングによる空間的レイアウトの損失を引き起こす単一プロトタイプモデルに起因する意味的曖昧性を解消すること。
  • 限られたサポート画像から得られる複数のプロトタイプを用いて、多様なフォアグラウンド領域およびバックグラウンドの意味をモデル化することで、特徴表現を向上させること。
  • 後処理やアーキテクチャの大幅な見直しを必要とせず、メトリック学習フレームワークに容易に統合可能なプラグアンドプレイ手法を開発すること。
  • モデルサイズと推論コストの増加をある程度に抑えつつ、PASCAL VOCおよびMS-COCOベンチマークで最先端の性能を達成すること。

提案手法

  • PMMsは、期待値最大化(EM)アルゴリズムを用いて、各サポート画像から複数のプロトタイプを推定し、マスク処理されたピクセルを正例として扱う。
  • EMアルゴリズムは空間的およびチャネルワイドな特徴分布をモデル化し、プロトタイプの混合を用いて、異なるオブジェクト部品およびバックグラウンド領域を表現可能にする。
  • 推論時、PMMsは二重の方法で使用される:(1) P-Matchはクエリ特徴とプロトタイプをマッチングさせ、関連するチャネルを活性化し、(2) P-Convは要素ごとの積を実行して確率マップを生成する。
  • 二重ブランチアーキテクチャ(サポートブランチおよびクエリブランチ)を採用することで、既存の少サンプルセグメンテーションモデルと互換性を保ちながら、メトリック学習フレームワークにスムーズに統合可能である。
  • スキップ接続を用いてPMMモジュールをスタックすることで、性能をさらに向上させるリラクゼーションベースのRPMMsバリアントを導入した。
  • モデルは軽量であり、パラメータはわずか19.5M増加にとどまり、2080Tiで26 FPSの高い推論速度を維持している。

実験結果

リサーチクエスチョン

  • RQ1EMを用いて学習される複数のプロトタイプは、単一のグローバルプロトタイプと比較して、少サンプルセグメンテーションにおける意味的表現を向上させるか?
  • RQ2オブジェクト部品およびバックグラウンド領域の多様な表現をプロトタイプ混合でモデル化することで、少サンプルベンチマークにおけるセグメンテーション精度にどのような影響を与えるか?
  • RQ3PMMsを表現および分類器の両方として二重に使用することで、特徴の活性化およびバックグラウンド抑制にどの程度寄与するか?
  • RQ41ショットと5ショットの設定、およびPASCAL VOCとMS-COCOの異なるデータセットにおいて、この手法はどのようにスケーリングするか?
  • RQ5PMMsを用いる際の、モデルの複雑さ、推論速度、性能向上のトレードオフはどのようなものか?

主な発見

  • 5ショットのMS-COCOベンチマークにおいて、PMMsは最先端手法に対して5.82%の絶対的向上を達成し、RPMMsはベースライン手法を7.66%上回った。
  • MS-COCOの1ショット設定において、RPMMsはベースライン手法に対して4.47%の向上を達成し、PANetに対しては9.68%の向上を示した。これは強力な一般化性能を示している。
  • PASCAL VOCでは、ResNet50バックボーンを用いた1ショット設定で最先端手法を2.38%上回り、5ショット設定では1.50%の向上を達成した。
  • 最適なプロトタイプ数はK=3であり、これ以上の数では限られたサポートサンプルにおけるオーバーフィッティングにより性能が頭打ちまたは低下する。
  • VMFカーネルはガウスカーネルを上回る性能を示し、コサイン類似度が特徴の角度関係をより適切に捉えていることを示している。
  • 19.5Mのパラメータ増加にもかかわらず、モデルは高い推論速度を維持しており(2080Tiで26 FPS)、RPMMsを用いる場合でもわずかに低下(20 FPS)にとどまる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。