QUICK REVIEW

[論文レビュー] Fully Convolutional Networks for Semantic Segmentation

Evan Shelhamer, Jonathan Long|arXiv (Cornell University)|May 20, 2016

Advanced Neural Network Applications参考文献 51被引用数 838

ひとこと要約

本論文は分類ネットを完全畳み込みネットワークに変換し、エンドツーエンドでピクセル単位の意味論的セグメンテーションを実行する。マルチスケール特徴を統合するスキップ接続を導入し、推論を高速化した状態で最先端の結果を達成した。

ABSTRACT

Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, improve on the previous best result in semantic segmentation. Our key insight is to build "fully convolutional" networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet, the VGG net, and GoogLeNet) into fully convolutional networks and transfer their learned representations by fine-tuning to the segmentation task. We then define a skip architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations. Our fully convolutional network achieves improved segmentation of PASCAL VOC (30% relative improvement to 67.2% mean IU on 2012), NYUDv2, SIFT Flow, and PASCAL-Context, while inference takes one tenth of a second for a typical image.

研究の動機と目的

エンドツーエンドで学習させた完全畳み込みネットワークが、追加の後処理を必要とせずに意味論的セグメンテーションを改善することを示す。
分類ネット（AlexNet、VGG、GoogLeNet）をFCNに適応させ、密な予測のためにファインチューニングする。
正確なセグメンテーションのために、深い意味情報と浅い外観情報を融合するスキップ接続を導入する。
全画像トレーニングとパッチごとのトレーニングという学習戦略と、アップサンプリング層のエンドツーエンド学習性を調査する。

提案手法

事前学習済みの分類ネットを、全結合層を畳み込みに置換して完全畳み込みネットに変換する。
密なピクセル単位の出力を生成するために、ネット内アップサンプリング（デコンボリューション）層を追加する。
複数層からの特徴を融合するスキップ接続を導入し、空間的な細部を洗練させる（例: pool3/pool4）。
セグメンテーションのグラウンドトゥルース上で、ネットワーク全体をエンドツーエンドでファインチューニングする。
解像度と精度のトレードオフのために、シングルストリーム（32s）、ツーストリーム（16s）、スリーストリーム（8s）アーキテクチャを実験する。

実験結果

リサーチクエスチョン

RQ1FCNのエンドツーエンドトレーニングは、外部の後処理なしで高品質な密なピクセル単位のセグメンテーションを生み出せるか？
RQ2スキップ接続の有無を問わず、分類ネットをFCNに適用することが、セグメンテーションの精度と推論速度にどう影響するか？
RQ3マルチスケール特徴の融合（スキップ接続）が、セグメンテーションの空間的ディテールと全体的な意味論に与える影響は？
RQ4全画像トレーニングは、密な予測においてパッチごとのトレーニングよりも効率的で効果的か？

主な発見

ピクセル精度	平均精度	平均IU	f.w. IU
90.5	76.5	63.6	83.5
91.0	78.1	65.0	84.3
91.1	78.5	65.4	84.4
91.2	77.6	65.5	84.5
82.9	64.6	46.6	72.3
87.4	60.5	50.0	78.5
78.7	31.7	22.4	67.0
70.9	13.7	9.2	57.6

FCN-VGG16ベースのモデルは、PASCAL VOC 2011のセグメンテーションおよび他のデータセットで従来の最先端を上回る。
pool4とpool3からの融合を可能にするスキップ接続は、mean IUとディテールを改善し（例: FCN-16sおよびFCN-8sはFCN-32sを上回る）。
ネット内アップサンプリングによるエンドツーエンドのファインチューニングは、パッチベースの手法と比較して推論が速く、精度も競争力がある。
全画像でのトレーニングは収束を速め、密な予測にはパッチサンプリングと同等の効果がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。