QUICK REVIEW

[論文レビュー] Built-in Foreground/Background Prior for Weakly-Supervised Semantic Segmentation

Fatemehsadat Saleh, Mohammad Sadegh Ali Akbarian|arXiv (Cornell University)|Sep 2, 2016

Advanced Neural Network Applications参考文献 37被引用数 29

ひとこと要約

本論文は、外部のオブジェクト性モデルに依存せずに、事前学習済みのCNNの活性化から直接前景/背景マスクを抽出する弱教師ありセマンティックセグメンテーション手法を提案する。具体的には、VGG-16の高レベル畳み込み特徴量を対象としている。活性化マップに密なCRFを適用することで滑らかにし、正確な局所化プライアを生成する。この手法は、PASCAL VOC 2012およびMIRFLICKR-1Mで、画像タグのみを用いた最先端手法を著しく上回り、マスク選択による最小限のユーザ操作によってさらに性能向上を達成する。

ABSTRACT

Pixel-level annotations are expensive and time consuming to obtain. Hence, weak supervision using only image tags could have a significant impact in semantic segmentation. Recently, CNN-based methods have proposed to fine-tune pre-trained networks using image tags. Without additional information, this leads to poor localization accuracy. This problem, however, was alleviated by making use of objectness priors to generate foreground/background masks. Unfortunately these priors either require training pixel-level annotations/bounding boxes, or still yield inaccurate object boundaries. Here, we propose a novel method to extract markedly more accurate masks from the pre-trained network itself, forgoing external objectness modules. This is accomplished using the activations of the higher-level convolutional layers, smoothed by a dense CRF. We demonstrate that our method, based on these masks and a weakly-supervised loss, outperforms the state-of-the-art tag-based weakly-supervised semantic segmentation techniques. Furthermore, we introduce a new form of inexpensive weak supervision yielding an additional accuracy boost.

研究の動機と目的

画像ラベルのみで弱教師ありセマンティックセグメンテーションを実現する課題に取り組み、従来手法では局所化精度が低い問題を解決すること。
追加のアノテーションを必要としたり、誤差の原因となる外部オブジェクト性モデルへの依存を排除すること。
事前学習済みCNNからの内在的特徴を活用し、弱教師あり学習のための正確な前景/背景マスクを生成すること。
候補マスクの中から最も適切なものを選択するような、軽量で使いやすい追加の監督形態を導入し、最小限のアノテーションコストで性能を向上させること。

提案手法

事前学習済みネットワークの高レベル畳み込み層（例：VGG-16のconv5_3）の活性化から前景/背景マスクを抽出すること。
完全結合型条件付きランダムフィールド（CRF）を用いて、生の活性化マップを滑らかに処理し、空間的に整合性のあるマスクを生成すること。
得られたマスクを弱教師あり学習の目的関数における組み込み型の前景/背景プライアとして使用すること。
追加のピクセルレベルアノテーションを必要とせず、マスク生成とセグメンテーション学習をエンドツーエンドのフレームワークで統合すること。
ユーザーが自動的に生成された複数の候補マスクの中から最良のものを選択する「CheckMask手順」を提案し、最小限の監督を追加すること。
生成されたマスクと画像タグに一致するように予測を調整する弱教師あり損失関数を用いて、セグメンテーションネットワークを学習すること。

実験結果

リサーチクエスチョン

RQ1外部のオブジェクト性モデルに依存せずに、事前学習済みCNN特徴から信頼性のある前景/背景マスクを抽出できるか？
RQ2ネットワークの内在的活性化を局所化プライアとして用いることで、画像タグのみで弱教師ありセマンティックセグメンテーションの精度が向上するか？
RQ3数個の候補マスクの中から最良のものを選択するような最小限のユーザ操作が、実用的である一方で、性能向上に顕著な寄与を果たせるか？
RQ4境界ボックスやオブジェクトサイズ情報といったより強い監督を用いる最先端手法と比較して、本手法はどのように性能を発揮するか？

主な発見

本手法は、画像タグとCheckMask手順のみを用いてMIRFLICKR-1Mのサブセットで学習した場合、PASCAL VOC 2012の検証セットで46.3%のmIOUを達成し、CCNNベースライン（タグとCRFを用いる場合32.2% mIOU）を著しく上回った。
同じFlickrサブセットにおいて、タグのみで43.9% mIOU、CheckMaskを適用すると46.3% mIOUを達成し、最小限のユーザ入力で2.4%の絶対的向上を示した。
最先端のタグのみの手法を上回り、オブジェクトサイズ情報を利用した手法（CCNNにサイズ情報追加：32.2% mIOU）でさえも、本手法のCheckMask設定（46.3% mIOU）を上回った。
レアクラスに対しても良好な性能を示した—例として「table」では31.2% mIOU、「sofa」では16.8% mIOUを達成し、CCNNが完全に失敗する状況でも有効であるため、クラス不均衡に強いことが示された。
CheckMask手順は1枚あたり平均約2.5秒で処理可能であり、実世界の展開においても非常に実用的である。
定性的な結果では、特に複雑なシーンや細粒度のオブジェクト領域において、局所化精度と境界の一貫性が向上していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。