QUICK REVIEW

[論文レビュー] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling

Vijay Badrinarayanan, Ankur Handa|arXiv (Cornell University)|May 27, 2015

Advanced Neural Network Applications被引用数 56

ひとこと要約

SegNetは、プーリングのインデックスを転送することで学習可能なアップサンプリングを用いる、深層エンコーダ・デコーダ畳み込みニューラルネットワークを提案し、後処理を必要とせずに滑らかで正確なセマンティック画像分類マップを生成する。階層的特徴抽出とより深い層による空間的文脈の拡大を活用することで、CamVid、KITTI、NYUデータセットで最先端の性能を達成する。

ABSTRACT

We propose a novel deep architecture, SegNet, for semantic pixel wise image labelling. SegNet has several attractive properties; (i) it only requires forward evaluation of a fully learnt function to obtain smooth label predictions, (ii) with increasing depth, a larger context is considered for pixel labelling which improves accuracy, and (iii) it is easy to visualise the effect of feature activation(s) in the pixel label space at any depth. SegNet is composed of a stack of encoders followed by a corresponding decoder stack which feeds into a soft-max classification layer. The decoders help map low resolution feature maps at the output of the encoder stack to full input image size feature maps. This addresses an important drawback of recent deep learning approaches which have adopted networks designed for object categorization for pixel wise labelling. These methods lack a mechanism to map deep layer feature maps to input dimensions. They resort to ad hoc methods to upsample features, e.g. by replication. This results in noisy predictions and also restricts the number of pooling layers in order to avoid too much upsampling and thus reduces spatial context. SegNet overcomes these problems by learning to map encoder outputs to image pixel labels. We test the performance of SegNet on outdoor RGB scenes from CamVid, KITTI and indoor scenes from the NYU dataset. Our results show that SegNet achieves state-of-the-art performance even without use of additional cues such as depth, video frames or post-processing with CRF models.

研究の動機と目的

既存のディーブラーニングモデルが使用するコピー法などの任意のアップサンプリング手法による、ブロックヤンキーでノイジーな予測という限界を解消すること。
エンコーダからの低解像度特徴マップを、学習可能なデコーダを用いて入力画像の解像度にマッピングすることで、深層ネットワークがフル解像度のセグメンテーションマップを生成できることを可能にすること。
より深い層による空間的文脈の拡大を通じて、シーン構造やオブジェクト関係の理解を向上させることで、セグメンテーションの正確性を向上させること。
任意のネットワーク深さで特徴マップ活性化の可視化やアブレーションスタディを可能にする、モジュール型で完全に教師ありのアーキテクチャを提供すること。
特に新しいドメインへの微調整を最小限に抑えて、事前学習済みエンコーダ重みを用いて、異なるデータセット間での特徴の転送性を示すこと。

提案手法

SegNetは、畳み込み、ReLU活性化関数、および非オーバーラップの2×2マックスプーリング（サブサンプリング付き）から成るエンコーダブロックのスタックを用いる。
デコーダスタックはエンコーダを模倣しており、エンコーダのマックスプーリング層から得たプールインデックスを用いて、非転置の学習可能なアップサンプリングを実行し、空間次元を回復する。
各デコーダブロックは、アップサンプリングされた特徴マップに学習可能な畳み込みフィルタを適用し、特徴空間の構造的で文脈に配慮した再構成をネットワークが学習できるようにする。
最終的なデコーダ出力は、独立したピクセル単位の分類を実行するためのソフトマックス層を通過し、フル解像度のセグメンテーションマップを生成する。
ネットワーク全体は、ピクセル単位の分類のための交差エントロピー損失を用いて、エンドツーエンドで完全に教師ありの方法で訓練される。
アーキテクチャは各層で特徴マップの数を一定（通常64）に保つことで、深さに伴い計算コストを低減し、効率的な推論を可能にする。

実験結果

リサーチクエスチョン

RQ1学習可能なアップサンプリングを備えた深層エンコーダ・デコーダアーキテクチャは、任意のアップサンプリング手法を用いる標準的なディープネットワークを上回る性能を示せるか？
RQ2ネットワークの深さを増やし、空間的文脈を拡大することで、より滑らかで正確なピクセル単位の予測が得られるか？
RQ3あるデータセット（例：CamVid）で学習した特徴は、別のデータセット（例：KITTI）へ最小限の微調整で効果的に転送可能か？
RQ4CRF後処理やマルチスケール特徴を用いる手法と比較して、提案手法の正確性と推論品質はどのように異なるか？
RQ5デコーダスタックを用いて、ピクセルラベル空間における特徴活性化の効果を可視化・分析することはどの程度可能か？

主な発見

SegNetは、CRF後処理、深度情報、動画フレームを一切使用せずに、CamVidデータセットで最先端の性能を達成した。
KITTIデータセットでは、CamVidで事前学習済みのSegNetの最終層のみを微調整するだけで優れた結果が得られ、ドメイン間での特徴転送の有効性が示された。
NYUデータセットでは、13クラス中9クラスでマルチスケール畳み込みネットよりも優れた性能を示し、より深い文脈によりスケール変動の処理が改善された。
プールインデックスを転送して学習可能なアップサンプリングを実装することで、コピー法に比べてより滑らかなセグメンテーションマップが得られ、ブロックヤンキーなアーチファクトが減少した。
データセット間でパラメータを固定したままでも、SegNetは質的に正しいセグメンテーションを生成した。これは、学習済み特徴の強力な一般化能力を示している。
特徴マップ数を一定に保つことで、層の深さに伴い1層あたりの計算コストが低下し、より深いネットワークが効率的かつスケーラブルであることが分かった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。