QUICK REVIEW

[論文レビュー] High-performance Semantic Segmentation Using Very Deep Fully Convolutional Networks

Zifeng Wu, Chunhua Shen|arXiv (Cornell University)|Apr 15, 2016

Advanced Neural Network Applications参考文献 22被引用数 84

ひとこと要約

この論文は、非常に深い完全畳み込み残差ネットワークを用いた高性能な意味的セグメンテーション手法を提案する。GPUメモリ制限を克服するための新しい低解像度ネットワークシミュレーションと、トレーニングを改善するオンラインブートストラップ戦略を導入している。PASCAL VOC 2012 データセットでは78.3%の新しいSOTA平均交差率（mIoU）を達成し、Cityscapesでは77.3%を達成した。

ABSTRACT

We propose a method for high-performance semantic image segmentation (or semantic pixel labelling) based on very deep residual networks, which achieves the state-of-the-art performance. A few design factors are carefully considered to this end. We make the following contributions. (i) First, we evaluate different variations of a fully convolutional residual network so as to find the best configuration, including the number of layers, the resolution of feature maps, and the size of field-of-view. Our experiments show that further enlarging the field-of-view and increasing the resolution of feature maps are typically beneficial, which however inevitably leads to a higher demand for GPU memories. To walk around the limitation, we propose a new method to simulate a high resolution network with a low resolution network, which can be applied during training and/or testing. (ii) Second, we propose an online bootstrapping method for training. We demonstrate that online bootstrapping is critically important for achieving good accuracy. (iii) Third we apply the traditional dropout to some of the residual blocks, which further improves the performance. (iv) Finally, our method achieves the currently best mean intersection-over-union 78.3\% on the PASCAL VOC 2012 dataset, as well as on the recent dataset Cityscapes.

研究の動機と目的

非常に深い完全畳み込み残差ネットワークを用いて、意味的画像セグメンテーションで最先端のパフォーマンスを達成すること。
深層ネットワークにおける高解像度特徴マップと広い視野（field-of-view）が引き起こすGPUメモリ制限を解決すること。
トレーニング中に難しい正例および負例ピクセルを効果的にマイニングすることで、トレーニング精度を向上させること。
残差ブロック、ドロップアウト、視野サイズなどのアーキテクチャ的要因がセグメンテーションパフォーマンスに与える影響を評価すること。

提案手法

トレーニングおよび推論の両方で、低解像度ネットワークを用いて高解像度特徴マップをシミュレートする手法を提案し、GPUメモリ使用量を削減する。
動的に難易度の高いトレーニングピクセル（高損失サンプル）を選択するオンラインブートストラップ技術を導入し、モデルの一般化性能を向上させる。
過学習を軽減し、一般化性能を向上させるために、選択された残差ブロックにドロップアウト正則化を適用する。
畳み込みの拡張（dilated convolutions）とスキップ接続を用いて、受容 field を拡大しながらも高解像度特徴マップを維持する。
確率的勾配降下法を用いたエンドツーエンドのトレーニングとデータ拡張を活用し、完全畳み込み残差ネットワークを最適化する。
効果的なトランスファー学習を可能にするために、事前学習済みImageNet重みをネットワークの初期化に活用する。

実験結果

リサーチクエスチョン

RQ1完全畳み込み残差ネットワークにおけるネットワークの深さ、特徴マップ解像度、視野サイズが意味的セグメンテーションパフォーマンスに与える影響は何か？
RQ2低解像度ネットワークが高解像度ネットワークの挙動を効果的にシミュレートでき、精度を損なわせずにGPUメモリ使用量を削減できるか？
RQ3オンラインブートストラップは、意味的セグメンテーションタスクにおけるトレーニング精度と収束性にどのような影響を与えるか？
RQ4残差ブロックにドロップアウトを適用することで、モデルの一般化性能やベンチマークデータセット上でのパフォーマンスにどのような影響があるか？
RQ5意味的セグメンテーションにおいて、パフォーマンスと計算コストの最良なトレードオフを達成するアーキテクチャ的設定は何か？

主な発見

提案手法は、PASCAL VOC 2012の検証セットで78.3%という新しいSOTAの平均交差率（mIoU）を達成し、従来手法を上回った。
オンラインブートストラップはモデルの精度を顕著に向上させ、最適パフォーマンスを達成する上で極めて重要な役割を果たしていることが示された。
特徴マップの視野と解像度を拡大すると、セグメンテーションパフォーマンスが向上するが、GPUメモリ使用量の増加を伴う。
提案されたシミュレーション手法により、精度を維持したままメモリ消費量を削減したトレーニングおよび推論が可能になり、GPUメモリ制限を効果的に緩和した。
残差ブロックにドロップアウトを適用することでパフォーマンスがさらによくなったことから、深層セグメンテーションネットワークにおける過学習の軽減に有効であることが示された。
Cityscapesデータセットでも77.3%のmIoUを達成し、多様なベンチマークデータセットにわたる優れた一般化性能を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。