Skip to main content
QUICK REVIEW

[論文レビュー] Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation

Yunchao Wei, Huaxin Xiao|arXiv (Cornell University)|May 11, 2018
Advanced Neural Network Applications参考文献 40被引用数 45
ひとこと要約

この論文は多重拡張畳み込みブロックを再利用して画像レベルのラベルから密な物体局在を生成し、PASCAL VOC 2012における弱教師付き・半教師付きセマンティックセグメンテーションで最先端を達成します。

ABSTRACT

Despite the remarkable progress, weakly supervised segmentation approaches are still inferior to their fully supervised counterparts. We obverse the performance gap mainly comes from their limitation on learning to produce high-quality dense object localization maps from image-level supervision. To mitigate such a gap, we revisit the dilated convolution [1] and reveal how it can be utilized in a novel way to effectively overcome this critical limitation of weakly supervised segmentation approaches. Specifically, we find that varying dilation rates can effectively enlarge the receptive fields of convolutional kernels and more importantly transfer the surrounding discriminative information to non-discriminative object regions, promoting the emergence of these regions in the object localization maps. Then, we design a generic classification network equipped with convolutional blocks of different dilated rates. It can produce dense and reliable object localization maps and effectively benefit both weakly- and semi- supervised semantic segmentation. Despite the apparent simplicity, our proposed approach obtains superior performance over state-of-the-arts. In particular, it achieves 60.8% and 67.6% mIoU scores on Pascal VOC 2012 test set in weakly- (only image-level labels are available) and semi- (1,464 segmentation masks are available) supervised settings, which are the new state-of-the-arts.

研究の動機と目的

  • 弱教師付き分割のための画像レベルの監 supervising における密な物体局在のギャップを動機づけて解決する。
  • 識別可能な知識を識別不能な物体領域へ転移するために、多重拡張畳み込みブロックを用いたシンプルで汎用的なアプローチを提案する。
  • 密な局在マップを提供して、弱教師付きおよび半教師付き設定のセグメンテーション訓練を改善する。

提案手法

  • 標準分類ネットワークを複数の拡張率ブロックで構成して、複数スケールで受容野を拡大する。
  • ブロックごとにクラス活性マップ(CAM)を用いて物体局在マップを作成する。
  • 拡張率(d=3,6,9)のブロックの局在マップを平均化し、結果をd=1のマップに加えることでノイズを抑制するア anti-noise 融合戦略を提案する。
  • 密な局在マップを擬似マスクとしてセグメンテーションモデルを訓練し、背景の手掛かりには顕著性を使用する。
  • 弱教師付き(画像レベルのラベル)および半教師付き(強・弱混在)設定の学習目的を提供する。

実験結果

リサーチクエスチョン

  • RQ1拡張レートの異なる畳み込みブロックが、画像レベルの監督から密で信頼性の高い物体局在を生み出せるか。
  • RQ2多重拡張局在マップのノイズ抑制融合が、弱教師付きおよび半教師付き設定でセグメンテーション性能を向上させるか。
  • RQ3提案された局在手法は、弱教師付きおよび半教師付きの体制下でVOC 2012の最先端結果にどのように影響するか。

主な発見

  • 弱教師付き設定の Pascal VOC 2012 テストセットで新しい最先端の mIoU を達成: 60.8%(画像レベルラベルのみ)。
  • 半教師付き設定の Pascal VOC 2012 テストセットで新しい最先端の mIoU を達成: 67.6%。
  • 多重拡張ブロックによって生成された密な局在マップは、ノイズ抑制戦略と融合すると、単一の拡張や単純平均を用いる場合と比較してセグメンテーション訓練を大幅に改善する。
  • この手法は、弱教師付き設定で検証時 mIoU 60.4%、テスト時 mIoU 60.8%、半教師付き実験で検証時 65.7%、テスト時 67.6% を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。