Skip to main content
QUICK REVIEW

[論文レビュー] Real-time Semantic Image Segmentation via Spatial Sparsity

Zifeng Wu, Chunhua Shen|arXiv (Cornell University)|Dec 1, 2017
Advanced Neural Network Applications参考文献 20被引用数 53
ひとこと要約

本論文は、二列FCNに空間的スパース性を導入し、高解像度パスでの処理をスキップすることで、Cityscapes で限定的な精度低下を伴い ≈25× の速度向上を達成します。改良モデルは GTX 980 で実時間レートの速度で平均 IoU 72.9% に達します。

ABSTRACT

We propose an approach to semantic (image) segmentation that reduces the computational costs by a factor of 25 with limited impact on the quality of results. Semantic segmentation has a number of practical applications, and for most such applications the computational costs are critical. The method follows a typical two-column network structure, where one column accepts an input image, while the other accepts a half-resolution version of that image. By identifying specific regions in the full-resolution image that can be safely ignored, as well as carefully tailoring the network structure, we can process approximately 15 highresolution Cityscapes images (1024x2048) per second using a single GTX 980 video card, while achieving a mean intersection-over-union score of 72.9% on the Cityscapes test set.

研究の動機と目的

  • 高解像度画像(Cityscapes)に対するリアルタイム意味分割を動機づける。
  • 大きな精度低下を伴わずに計算量を削減するために空間的スパース性を導入する。
  • 粗から細への融合と列間接続を備えた二列アーキテクチャを探究する。
  • Cityscapes で最新手法と比較した有効性と速度を評価する。

提案手法

  • 半解像度入力と全解像度入力を持つ二列FCNを拡張する。
  • 全解像度パスでスキップ可能な領域を特定するスパースウェイトマップを導入する。
  • 確率的な活性化制約と画像ごとの領域ペナルティを用いてスパース性を訓練する。
  • 高速推論を安定化させるため、粗から細への融合、uncrop 訓練、列間接続を組み込む。
  • 計算量を削減するために残差ユニットを体系的に削除し、精度低下を抑える訓練戦略を用いる。

実験結果

リサーチクエスチョン

  • RQ1二列 FCN の空間スパース性は、高解像度の意味分割の計算量を大幅に削減できるか、精度の大幅な低下を伴わずに?
  • RQ2Cityscapes における粗から細への融合とスパース性は、他の融合戦略と比較してどうか。
  • RQ3高速推論下で最も精度を保つ訓練戦略(uncrop、列間接続、残差ユニット削除)はどれか。
  • RQ4ISCTF モデルで Cityscapes における速度と分割品質のトレードオフはどうなるか?

主な発見

手法平均 IoU時間/速度計算量(g)備考
FCN-8s65.3%500msBaseline on Cityscapes test set
DeepLab-v271.4%625msBaseline on Cityscapes test set
RefineNet73.6%Baseline on Cityscapes test set
PSPNet80.2%Baseline on Cityscapes test set
SegNet57.0%60msBaseline on Cityscapes test set
ENet58.3%13msBaseline on Cityscapes test set
Ours72.9%68msThis work (best reported)
  • 稀薄な粗から細への(SCTF)アプローチは、計算量を約35%削減するが、基礎となる粗から細への手法と比べて平均 IoU を約0.42%低下させる。
  • 改良された Sparse 粗から細への(ISCTF)アプローチは、非スパースベースラインと同等かやや上回り、139g の計算量で平均 IoU 75.40% を達成する設定もある。
  • ISCTFによる高速推論は一貫した性能を示し、SCTF で見られた境界問題を緩和する。
  • Cityscapes の検証データで、空間スパース性と高速推論は計算量を最大約50%削減し、妥当な精度低下(特定設定では約0.6%程度)をもたらす。
  • 本手法は、ベースラインの 786g に対して約 31.5gの計算コストで ≈25×の削減を達成し、最良のトレードオフ構成(ISCTF)では平均 IoU が約 2.0%低下。
  • 既存のリアルタイム手法と比較して、提案手法は GTX 980 で 14.7 fps(1 枚あたり 68 ms)で平均 IoU 72.9% を達成します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。