QUICK REVIEW

[論文レビュー] Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation

Jiwoon Ahn, Suha Kwak|arXiv (Cornell University)|Mar 28, 2018

Advanced Neural Network Applications参考文献 40被引用数 74

ひとこと要約

この論文は、隣接座標間のピクセルレベルの意味的アフィニティを予測するために画像レベルのラベルで訓練された CNN である AffinityNet を導入します。これにより、ランダムウォークベースの伝播を用いて CAM を改良し、追加の注釈なしで訓練用の強力なセグメンテーションモデルを訓練するためのセグメンテーションラベルを合成します。

ABSTRACT

The deficiency of segmentation labels is one of the main obstacles to semantic segmentation in the wild. To alleviate this issue, we present a novel framework that generates segmentation labels of images given their image-level class labels. In this weakly supervised setting, trained models have been known to segment local discriminative parts rather than the entire object area. Our solution is to propagate such local responses to nearby areas which belong to the same semantic entity. To this end, we propose a Deep Neural Network (DNN) called AffinityNet that predicts semantic affinity between a pair of adjacent image coordinates. The semantic propagation is then realized by random walk with the affinities predicted by AffinityNet. More importantly, the supervision employed to train AffinityNet is given by the initial discriminative part segmentation, which is incomplete as a segmentation annotation but sufficient for learning semantic affinities within small image areas. Thus the entire framework relies only on image-level class labels and does not require any extra data or annotations. On the PASCAL VOC 2012 dataset, a DNN learned with segmentation labels generated by our method outperforms previous models trained with the same level of supervision, and is even as competitive as those relying on stronger supervision.

研究の動機と目的

ピクセルレベルの注釈が不足している問題を、セグメンテーションのために画像レベルのラベルを活用して解決する。
局所的な判別応答を完全なオブジェクト領域へ伝搬させるためにピクセルレベルの意味的アフィニティを学習する。
セグメンテーションモデルの訓練に利用可能なセグメンテーションラベルを合成するエンドツーエンドのフレームワークを開発する。
画像レベルの監視下で PASCAL VOC 2012 において最先端性能を実証する。

提案手法

画像レベルで訓練された分類器から Class Activation Maps (CAMs) を計算してオブジェクト領域を種として用いる。
クラス非依存の目的関数と CAM 由来の監 supervision を用いて、隣接座標間の意味的アフィニティ Wij を予測する AffinityNet を訓練する。
CAM と dCRF の refinements から自信のあるオブジェクト/背景領域を選択して信頼性の高いペアワイズアフィニティラベルを生成する。
学習済みアフィニティマトリクスを用いてランダムウォークを通じて CAM を伝搬させ、CAM を改訂して改善されたセグメンテーション提案を得る。
改訂された CAM を dCRF でアップサンプリング・ refining して、セマンティックセグメンテーションネットワークを訓練するためのセグメンテーションラベルを合成する。
最終的なセグメンテーションモデル（例: Ours-ResNet38）を合成ラベル上で訓練する。

実験結果

リサーチクエスチョン

RQ1画像レベルのラベルを用いて、完全なオブジェクト形状を回復するのに役立つピクセルレベルの意味的アフィニティを学習できるか。
RQ2学習済みのアフィニティモデルはランダムウォークを介して活性化マップを正確なオブジェクト境界へ拡散させるのにどれだけ効果的か。
RQ3合成ラベルは弱教師ありでも競争力のあるセマンティックセグメンテーションを可能にするか。
RQ4弱教師ありの結果は PASCAL VOC 2012 において完全教師ありベースラインにどれだけ近づくか。

主な発見

画像レベル監督で訓練された AffinityNet は意味のあるピクセルレベルのアフィニティを生み出す。
AffinityNet を用いたランダムウォークは CAM ベースのセグメンテーションマスクを大幅に改善する。
合成ラベルはセグメンテーションモデルの訓練を可能にし、以前の画像レベル監視法よりも優れ、より強い監視と競合する。
Ours-ResNet38 は従来の弱教師あり手法と比較して PASCAL VOC 2012 で強い性能を達成している。
このアプローチは完全教師ありのベースラインの性能に近づき、その性能の substantial portions を回復する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。