QUICK REVIEW

[論文レビュー] RiFCN: Recurrent Network in Fully Convolutional Network for Semantic Segmentation of High Resolution Remote Sensing Images

Lichao Mou, Xiao Xiang Zhu|arXiv (Cornell University)|May 5, 2018

Advanced Neural Network Applications参考文献 40被引用数 66

ひとこと要約

RiFCN は多段階 CNN 特征を結合する双方向の再帰的融合ネットワークを導入し、ISPRS Potsdam および Inria データセットで FCN および SegNet よりピクセル単位の意味的分割を改善します。

ABSTRACT

Semantic segmentation in high resolution remote sensing images is a fundamental and challenging task. Convolutional neural networks (CNNs), such as fully convolutional network (FCN) and SegNet, have shown outstanding performance in many segmentation tasks. One key pillar of these successes is mining useful information from features in convolutional layers for producing high resolution segmentation maps. For example, FCN nonlinearly combines high-level features extracted from last convolutional layers; whereas SegNet utilizes a deconvolutional network which takes as input only coarse, high-level feature maps of the last convolutional layer. However, how to better fuse multi-level convolutional feature maps for semantic segmentation of remote sensing images is underexplored. In this work, we propose a novel bidirectional network called recurrent network in fully convolutional network (RiFCN), which is end-to-end trainable. It has a forward stream and a backward stream. The former is a classification CNN architecture for feature extraction, which takes an input image and produces multi-level convolutional feature maps from shallow to deep; while in the later, to achieve accurate boundary inference and semantic segmentation, boundary-aware high resolution feature maps in shallower layers and high-level but low-resolution features are recursively embedded into the learning framework (from deep to shallow) to generate a fused feature representation that draws a holistic picture of not only high-level semantic information but also low-level fine-grained details. Experimental results on two widely-used high resolution remote sensing data sets for semantic segmentation tasks, ISPRS Potsdam and Inria Aerial Image Labeling Data Set, demonstrate competitive performance obtained by the proposed methodology compared to other studied approaches.

研究の動機と目的

高解像度リモートセンシング画像における境界精度を向上させるため、マルチレベル CNN 特征の融合を改善することを動機づける。
前方特徴抽出器と後方再帰融合ストリームを備えた双方向 RiFCN アーキテクチャを提案する。
ネットワーク全体をエンドツーエンドで訓練し、ピクセル単位の意味的分割性能を向上させる。

提案手法

Forward stream: 3×3 畳み込みと 2×2 最大プーリングを用い、解像度をパディングと ReLU 活性化で保持する 5 ブロック CNN（VGG-16 スタイル）。
Backward stream: 高次元特徴を上位から下位のレイヤへ統合する再帰的・自己回帰的結合プロセスで、変形可能に近いデコーワードでアップサンプリングと融合を行う（Φ function）。
Equation-based fusion: F_bwd^l = Φ(F_fwd^l, F_bwd^{l+1}) with Φ combining a forward-path convolution term and a deconvolution term; backpropagated gradients follow a multi-level accumulation (Eq. 6) and momentum updates (Eq. 7).
Loss: ピクセル単位のクロスエントロピーを M クラス上で、前方・後方ストリームのパラメータ（W, W_fwd, W_bwd）に条件付けて最小化。
Training: Nesterov Adam を用いた TensorFlow によるエンドツーエンド学習、小さなバッチ、データ拡張、早期終了、30 エポック。

実験結果

リサーチクエスチョン

RQ1双方向ネットワークが再帰的な後方ストリームを介して全レベル特徴を融合することで、高解像度リモートセンシング画像の境界を保持した意味的分割を改善できるか。
RQ2自己回帰的・トップダウンの特徴融合は、細部の微細情報を保持しつつ高レベルの意味的精度を維持できるか。
RQ3RiFCN は標準的な FCN および SegNet と比較して、ベンチマークとなる高解像度リモートセンシングデータセットでどのように挙動するか。
RQ4評価の際に侵食された境界 Ground Truth を使用した場合、アプローチはどれほど頑健か。
RQ5建物、道路、小さな物体クラスにおける定性的・定量的な利得はどれほどか。

主な発見

方法	不透水表面	建物	低植生	樹木	車両	雑物	OA	平均 F1
FCN	88.46	92.28	78.33	73.10	82.83	69.55	84.39	80.76
SegNet	88.53	91.90	79.68	76.04	86.51	61.16	84.68	80.64
RiFCN	90.10	92.23	81.94	79.29	88.91	69.71	86.59	83.70
FCN [e]	90.32	93.16	80.03	75.78	89.26	72.23	86.26	83.46
SegNet [e]	90.41	92.77	81.65	78.77	92.41	63.61	86.58	83.27
RiFCN [e]	91.74	93.02	83.71	81.90	93.73	72.18	88.30	86.05

RiFCN は ISPRS Potsdam データセットで FCN および SegNet よりも平均 F1 および全体精度で優れている（RiFCN: 83.70 OA; RiFCN[e]: 86.05 OA vs FCN 80.76 and SegNet 80.64）。
RiFCN は車両などの小さなオブジェクトを含むクラスでより高い個別スコアを達成（RiFCN: Cars の平均 88.91; RiFCN[e]: 93.73）。
FCN および SegNet と比較して、RiFCN および RiFCN[e] はほとんどの地表被覆カテゴリ（不透水表面、建物、低植生、樹木、車両、雑物）で一貫した改善を示す。
Inria の空撮画像ラベリングデータセットでは、RiFCN は SegNet および FCN 系列のいくつかのベースラインより IoU や全体精度で競争力を発揮（RiFCN IoU/Acc: 74.00/95.82 全体, RiFCN[e] ???）。
後向き再帰的融合は深部から浅部へのマルチパス情報フローを可能にし、定性的な結果で境界の delineation と意味的一貫性を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。