QUICK REVIEW

[論文レビュー] Real-time Semantic Image Segmentation via Spatial Sparsity

Zifeng Wu, Chunhua Shen|arXiv (Cornell University)|Dec 1, 2017

Advanced Neural Network Applications参考文献 20被引用数 53

ひとこと要約

本論文は、二列FCNに空間的スパース性を導入し、高解像度パスでの処理をスキップすることで、Cityscapes で限定的な精度低下を伴い ≈25× の速度向上を達成します。改良モデルは GTX 980 で実時間レートの速度で平均 IoU 72.9% に達します。

ABSTRACT

We propose an approach to semantic (image) segmentation that reduces the computational costs by a factor of 25 with limited impact on the quality of results. Semantic segmentation has a number of practical applications, and for most such applications the computational costs are critical. The method follows a typical two-column network structure, where one column accepts an input image, while the other accepts a half-resolution version of that image. By identifying specific regions in the full-resolution image that can be safely ignored, as well as carefully tailoring the network structure, we can process approximately 15 highresolution Cityscapes images (1024x2048) per second using a single GTX 980 video card, while achieving a mean intersection-over-union score of 72.9% on the Cityscapes test set.

研究の動機と目的

高解像度画像（Cityscapes）に対するリアルタイム意味分割を動機づける。
大きな精度低下を伴わずに計算量を削減するために空間的スパース性を導入する。
粗から細への融合と列間接続を備えた二列アーキテクチャを探究する。
Cityscapes で最新手法と比較した有効性と速度を評価する。

提案手法

半解像度入力と全解像度入力を持つ二列FCNを拡張する。
全解像度パスでスキップ可能な領域を特定するスパースウェイトマップを導入する。
確率的な活性化制約と画像ごとの領域ペナルティを用いてスパース性を訓練する。
高速推論を安定化させるため、粗から細への融合、uncrop 訓練、列間接続を組み込む。
計算量を削減するために残差ユニットを体系的に削除し、精度低下を抑える訓練戦略を用いる。

実験結果

リサーチクエスチョン

RQ1二列 FCN の空間スパース性は、高解像度の意味分割の計算量を大幅に削減できるか、精度の大幅な低下を伴わずに？
RQ2Cityscapes における粗から細への融合とスパース性は、他の融合戦略と比較してどうか。
RQ3高速推論下で最も精度を保つ訓練戦略（uncrop、列間接続、残差ユニット削除）はどれか。
RQ4ISCTF モデルで Cityscapes における速度と分割品質のトレードオフはどうなるか？

主な発見

手法	平均 IoU	時間/速度	計算量（g）	備考
FCN-8s	65.3%	500ms	–	Baseline on Cityscapes test set
DeepLab-v2	71.4%	625ms	–	Baseline on Cityscapes test set
RefineNet	73.6%	–	–	Baseline on Cityscapes test set
PSPNet	80.2%	–	–	Baseline on Cityscapes test set
SegNet	57.0%	60ms	–	Baseline on Cityscapes test set
ENet	58.3%	13ms	–	Baseline on Cityscapes test set
Ours	72.9%	68ms	–	This work (best reported)

稀薄な粗から細への（SCTF）アプローチは、計算量を約35%削減するが、基礎となる粗から細への手法と比べて平均 IoU を約0.42%低下させる。
改良された Sparse 粗から細への（ISCTF）アプローチは、非スパースベースラインと同等かやや上回り、139g の計算量で平均 IoU 75.40% を達成する設定もある。
ISCTFによる高速推論は一貫した性能を示し、SCTF で見られた境界問題を緩和する。
Cityscapes の検証データで、空間スパース性と高速推論は計算量を最大約50%削減し、妥当な精度低下（特定設定では約0.6%程度）をもたらす。
本手法は、ベースラインの 786g に対して約 31.5gの計算コストで ≈25×の削減を達成し、最良のトレードオフ構成（ISCTF）では平均 IoU が約 2.0%低下。
既存のリアルタイム手法と比較して、提案手法は GTX 980 で 14.7 fps（1 枚あたり 68 ms）で平均 IoU 72.9% を達成します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。