QUICK REVIEW

[論文レビュー] Fully Convolutional Networks for Semantic Segmentation

J. D. Long, Evan Shelhamer|arXiv (Cornell University)|Nov 14, 2014

Advanced Neural Network Applications被引用数 2,812

ひとこと要約

この論文は分類ネットを完全畳み込みネットワーク（FCN）に変換し、エンドツーエンドの画素単位の意味セグメンテーションを実現します。エンドツーエンドの訓練とスキップ接続を用いたマルチスケール情報の統合により、複数のデータセットで最先端の成果を達成します。

ABSTRACT

Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, exceed the state-of-the-art in semantic segmentation. Our key insight is to build "fully convolutional" networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet, the VGG net, and GoogLeNet) into fully convolutional networks and transfer their learned representations by fine-tuning to the segmentation task. We then define a novel architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations. Our fully convolutional network achieves state-of-the-art segmentation of PASCAL VOC (20% relative improvement to 62.2% mean IU on 2012), NYUDv2, and SIFT Flow, while inference takes one third of a second for a typical image.

研究の動機と目的

エンドツーエンドで訓練された完全畳み込みネットワークが、追加の後処理や提案なしで画素単位の意味セグメンテーションを実行できることを動機づけ、実証する。
分類ネット（AlexNet、VGG、GoogLeNet）を完全畳み込みネットワークへ適応・再利用し、エンドツーエンドのファインチューニングを通じて密な予測に適用可能にする。
粗い意味情報と細かな外観ディテールを組み合わせて空間的精度を高めるスキップアーキテクチャ（FCN-32s、FCN-16s、FCN-8s）を開発する。
標準データセット（PASCAL VOC 2011/2012、NYUDv2、SIFT Flow）でアプローチを評価し、従来の最先端手法と比較する。
アップサンプリングフィルタをエンドツーエンドでファインチューニングし、全体の訓練と推論の効率を分析する。

提案手法

伝統的な分類ネットを完全畳み込みネットワークへ変換し、全結合層を畳み込みに変換して各場所でクラススコアを出力する1x1の畳み込みを追加する。
粗い出力から密な画素ごとの予測を回復するためにネットワーク内アップサンプリング（デコンボリューション）層を追加し、これらのアップサンプリングフィルタを逆伝播によって共同学習する。
複数の層からの予測を統合するスキップアーキテクチャを導入し（pool4/pool3とconv7）、広範な意味情報を保ちながら空間的な詳細を強化する（FCN-32s、FCN-16s、FCN-8s）。
セグメンテーションデータで適応したネットワークをファインチューニングし、画素ごとの多項ロジスティック損失と評価指標として平均IUを用いる。
単一ストリームとスキップ接続付きFCNを比較し、複数データセットで推論時間の改善と精度向上を報告する。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドで訓練されたFCNは、外部のポストプロセシングや提案なしで従来の意味セグメンテーション手法を上回ることができるか。
RQ2ネットワーク内アップサンプリングを用いた分類ネットの適応は、セグメンテーションタスクに対して正確な密な予測を可能にするか。
RQ3粗い深部特徴と細い浅部特徴をスキップアーキテクチャで組み合わせることで、セグメンテーションの詳細と精度は向上するか。
RQ4エンドツーエンドのファインチューニングとマルチスケール融合は、標準的なセグメンテーション指標（PASCAL VOC、NYUDv2、SIFT Flow）にどのような影響を与えるか。

主な発見

mean IU	inference time (ms)	pixel acc	mean acc	f.w. IU	geom. acc
R-CNN	-	47.9	-	-	-
SDS [16]	~50 s	52.6	-	-	-
FCN-8s	~175	62.7	62.7	83.2	-
FCN-32s	-	59.4	-	81.4	-
FCN-16s	-	62.4	75.7	83.0	-
FCN-8s (full table)	-	62.7	75.9	62.7	-
NYUDv2 - RGB-HHA	-	32.8	34.0	49.5	-
NYUDv2 - RGB-HHA (16s)	-	33.5	35.2	-	-
SIFT Flow - FCN-16s	-	39.5	51.7	76.1	94.3
SIFT Flow - FCN-8s	-	-	-	-	-

FCN-8sはPASCAL VOC 2011テストで平均IUが62.7、VOC 2012テストで62.2を達成し、従来のSDSより約20%の相対的な改善を示した。
FCN-16sおよびFCN-8sはFCN-32sを上回り、PASCAL VOCの検証で平均IUがそれぞれ59.4から62.4、62.7へと向上し、スキップ接続による利点を示した。
NYUDv2ではRGB-HHAおよびRGB-HHA融合モデルがそれぞれ平均IUで32.8、34.0を達成し、従来手法を上回った。RGB-HHAとFCN-16sの組み合わせは34.0の平均IUを達成。
SIFT FlowではFCN-16sが平均IU39.5、FCN-8sが平均IU -（表に記載のとおり）で、強力な意味的・幾何的ラベリングと競合的な性能を示した。
エンドツーエンドの訓練とネットワーク内アップサンプリングにより推論が高速化され、500x500入力で約175ms程度まで短縮され、スーパーセグメントやCRFのような後処理を不要にする。
スキップ接続を介して粗い意味情報と細かい外観情報を結合することで、境界の詳細と空間的な精度が改善された洗練されたセグメンテーションを実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。