[論文レビュー] Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
この論文は深層CNNと全結合CRFを組み合わせてピクセル単位のセマンティックセグメンテーションを行い、Dense CRFで局在化を解決し、atrous(hole)アルゴリズムで効率を向上させることでPASCAL VOC 2012で最先端の結果を達成します。
Deep Convolutional Neural Networks (DCNNs) have recently shown state of the art performance in high level vision tasks, such as image classification and object detection. This work brings together methods from DCNNs and probabilistic graphical models for addressing the task of pixel-level classification (also called "semantic image segmentation"). We show that responses at the final layer of DCNNs are not sufficiently localized for accurate object segmentation. This is due to the very invariance properties that make DCNNs good for high level tasks. We overcome this poor localization property of deep networks by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF). Qualitatively, our "DeepLab" system is able to localize segment boundaries at a level of accuracy which is beyond previous methods. Quantitatively, our method sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 71.6% IOU accuracy in the test set. We show how these results can be obtained efficiently: Careful network re-purposing and a novel application of the 'hole' algorithm from the wavelet community allow dense computation of neural net responses at 8 frames per second on a modern GPU.
研究の動機と目的
- DCNNの不変性が局在化を妨げるピクセルレベルの意味セグメンテーションを動機付ける。
- 事前学習済みCNNを性能の大幅な低下を招くことなく密集特徴抽出器に再利用する。
- DCNNのユナリ termを全結合CRFと結合して境界を refin することで局在化を解決する。
提案手法
- 16層CNN (VGG-16) を全結合畳み込みネットワークに変換して密集なピクセル単位スコアを得る。
- hole (atrous) アルゴリズムを用いて8ピクセルのストライドで密集特徴マップを計算し、高解像度のスコアマップを実現する。
- PASCAL VOC 2012で21クラスのピクセルラベリング用にCNNをファインチューニングし、密集出力に対してピクセルごとのクロスエントロピーを用いる。
- bilateralおよび空間カーネルを備えた全結合CRF (Krähenbühl & Koltun 2011) を組み合わせてセグメンテーション境界を refin する。
- 局在化を高めるために中間CNN層からのマルチスケール特徴を任意で取り入れる。
- 受容野設定(atrousカーネルサイズとストライド)を変えて、精度と速度のバランスを探る。
実験結果
リサーチクエスチョン
- RQ1Fully-connected CRFはDCNNベースのユナリ項と組み合わせた場合、局在化を改善できるか?セマンティックセグメンテーションにおいて。
- RQ2マルチスケール特徴と大きな受容野はセグメンテーション性能にどのような影響を与えるか。
- RQ3atrous畳み込みアプローチは密集スコア計算と全体的な効率にどのように影響するか。
- RQ4受容野とFOVを変える際の精度、速度、モデルサイズのトレードオフはどうなるか。
主な発見
- PASCAL VOC 2012 テストセットで平均IoUが最先端となる (71.6%、DeepLab-MSc-CRF-LargeFOV)。
- DeepLabシステムに全結合CRFを追加すると性能が大幅に向上(例:DeepLab-CRFは検証データでDeepLabより約4%向上)。
- マルチスケール特徴は局在化の追加的利益を提供し、CRFと組み合わせるとIoUがさらに向上。
- atrous(hole)アルゴリズムは8ピクセルストライドの密集CNNスコアを現代的なGPUで8fpsで実現し、CRF推論はVOC画像で平均0.5秒未満で動作。
- Large Field-of-View variantsは他の代替手法と比較して速度が速いにもかかわらず競合的または優れた精度を実現しており、リアルタイムまたはほぼリアルタイムの用途に有効なトレードオフを示す。
- VOC 2012 テストセットでのBest single model (DeepLab-MSc-CRF-LargeFOV) は 71.6% mean IOU を達成し、FCN-8sや他の同時期の手法を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。