Skip to main content
QUICK REVIEW

[論文レビュー] Understanding Convolution for Semantic Segmentation

Panqu Wang, Pengfei Chen|arXiv (Cornell University)|Feb 27, 2017
Advanced Neural Network Applications被引用数 47
ひとこと要約

本稿では、ピクセル単位のセマンティックセグメンテーションを向上させるために、2つの新しい畳み込み演算——Dense Upsampling Convolution (DUC) と Hybrid Dilated Convolution (HDC)——を提案する。DUCは学習可能な高分解能特徴マップのアップスケーリングを可能にし、HDCは複数の拡張率を用いることで、拡張畳み込みにおける「グリッド化問題」を軽減する。本手法は、CRF後処理を用いない状態で、Cityscapesで80.1%、PASCAL VOC2012で83.1%のSOTA mIoUを達成し、KITTIの道路セグメンテーションでも最高性能を発揮した。

ABSTRACT

Recent advances in deep learning, especially deep convolutional neural networks (CNNs), have led to significant improvement over previous semantic segmentation systems. Here we show how to improve pixel-wise semantic segmentation by manipulating convolution-related operations that are of both theoretical and practical value. First, we design dense upsampling convolution (DUC) to generate pixel-level prediction, which is able to capture and decode more detailed information that is generally missing in bilinear upsampling. Second, we propose a hybrid dilated convolution (HDC) framework in the encoding phase. This framework 1) effectively enlarges the receptive fields (RF) of the network to aggregate global information; 2) alleviates what we call the "gridding issue" caused by the standard dilated convolution operation. We evaluate our approaches thoroughly on the Cityscapes dataset, and achieve a state-of-art result of 80.1% mIOU in the test set at the time of submission. We also have achieved state-of-the-art overall on the KITTI road estimation benchmark and the PASCAL VOC2012 segmentation task. Our source code can be found at https://github.com/TuSimple/TuSimple-DUC .

研究の動機と目的

  • エンコーダーとデコーダーの両ステージにおける畳み込み演算の見直しにより、ピクセル単位のセマンティックセグメンテーションを向上させること。
  • 双線形アップサンプリングによる細部の損失を解消するため、学習可能な密なアップサンプリング機構を導入すること。
  • 標準的な拡張畳み込みにおける、疎なカーネルサンプリングが原因で生じる「グリッド化問題」を解消すること。
  • ダウンサンプリングを伴わずに受容 field を拡大し、グローバルな文脈の統合を向上させること。
  • Cityscapes、KITTI、PASCAL VOC2012といった主要ベンチマークでSOTA性能を達成すること。

提案手法

  • 特徴マップをフル解像度にアップスケーリングするためのフィルタ集合を学習するDense Upsampling Convolution (DUC) を提案。これにより、エンドツーエンド学習が可能になり、細部が保持される。
  • 同じ空間層で複数の拡張率を並列に適用し、出力を連結することで、受容 field のカバレッジを向上させるHybrid Dilated Convolution (HDC) を導入。
  • HDCでは、同じレイヤーに異なる拡張率を適用するマルチレート拡張戦略を採用し、標準的な拡張畳み込みのチェッカーボード型サンプリングパターンを低減する。
  • エンコーダーで双線形アップサンプリングを置き換えるDUCと、標準的な拡張畳み込みを置き換えるHDCを組み合わせた、修正済みResNet-101バックボーンを採用。
  • データオーグメンテーションと限られたデータセット(例:KITTI)におけるクロップベースの学習を用い、標準的な最適化手法でネットワークをエンドツーエンドに訓練。
  • アブレーションスタディでのみCRF後処理を適用。最良の結果はCRFなしで達成されており、提案モジュールの強力さを示している。

実験結果

リサーチクエスチョン

  • RQ1DUCのような学習可能なアップサンプリング機構は、細粒度のセグメンテーション細部の保持において、標準的な双線形アップサンプリングを上回ることができるか?
  • RQ21つのレイヤーで複数の拡張率を用いる(HDC)ことで、標準的な拡張畳み込みで見られるグリッド化効果は軽減されるか?
  • RQ3HDCは、密な空間的カバレッジを維持しながら、受容 field を効果的に拡大し、より良い文脈モデリングを可能にするか?
  • RQ4DUCとHDCは、Cityscapes、KITTI、PASCAL VOC2012といったベンチマークデータセットでどれほど性能向上をもたらすか?
  • RQ5提案されたモジュールは、CRF後処理に依存せずにSOTA結果を達成できるか?

主な発見

  • 提案されたResNet-DUC-HDCモデルは、CRF後処理を用いない単一モデルで、CityscapesテストセットでSOTAのmIoU 80.1%を達成した。
  • KITTIの道路セグメンテーションベンチマークでは、すべてのサブカテゴリで最高の最大F1スコア(96.41%)と平均適合率(93.88%)を達成した。
  • PASCAL VOC2012では、単一モデルでテストセットでmIoU 83.1%を達成し、先行手法を大きく上回った。
  • DUCモジュールは、小さなオブジェクトにおけるmIoUを顕著に向上させ、双線形アップサンプリングで失われる細部の保持効果を示した。
  • HDCフレームワークは、特に大きな受容 field を持つ深層部で、グリッド化問題を効果的に低減し、より密なサンプリングパターンを可能にした。
  • モデルアンサンブルやマルチスケールテストを一切用いない状態で、3つのベンチマークすべてでSOTA性能を達成した。これは、提案モジュールの強力さを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。