QUICK REVIEW

[論文レビュー] ShuffleSeg: Real-time Semantic Segmentation Network

Mostafa Gamal, Mennatullah Siam|arXiv (Cornell University)|Mar 10, 2018

Advanced Neural Network Applications参考文献 17被引用数 46

ひとこと要約

ShuffleSeg は ShuffleNet にインスパイアされたエンコーダを用いるリアルタイムセマンティックセグメンテーションネットワークで、グループ化畳み込みとチャネルシャッフルを採用し、CityScapes test で 2x GFLOPs 削減と 58.3% の mIoU、Jetson TX2 で 15.7 FPS を達成します。

ABSTRACT

Real-time semantic segmentation is of significant importance for mobile and robotics related applications. We propose a computationally efficient segmentation network which we term as ShuffleSeg. The proposed architecture is based on grouped convolution and channel shuffling in its encoder for improving the performance. An ablation study of different decoding methods is compared including Skip architecture, UNet, and Dilation Frontend. Interesting insights on the speed and accuracy tradeoff is discussed. It is shown that skip architecture in the decoding method provides the best compromise for the goal of real-time performance, while it provides adequate accuracy by utilizing higher resolution feature maps for a more accurate segmentation. ShuffleSeg is evaluated on CityScapes and compared against the state of the art real-time segmentation networks. It achieves 2x GFLOPs reduction, while it provides on par mean intersection over union of 58.3% on CityScapes test set. ShuffleSeg runs at 15.7 frames per second on NVIDIA Jetson TX2, which makes it of great potential for real-time applications.

研究の動機と目的

計算効率の高いリアルタイムセマンティックセグメンテーションネットワークを開発する。
ShuffleNet に着想を得たエンコーダを、グループ化畳み込みとチャネルシャッフルを用いて活用する。
デコーダの戦略を体系的に比較し、最適な速度-精度のトレードオフを同定する。
CityScapes で低 FLOPs でも競争力のある精度を示す。
組み込みハードウェア（Jetson TX2）上でのリアルタイム性能を評価する。

提案手法

グループ化畳み込みとチャネルシャッフルを用いた ShuffleNet に基づくエンコーダ。
初段の 3x3 conv（ストライド 2）と 2x2 maxpool によるダウンサンプリングと、その後に三つの ShuffleNet ユニット段を配置し、32x のダウンサンプリングを達成。
SkipNet を最良のトレードオフとして選択した、UNet, SkipNet, Dilation8s, Dilation4s の4つのデコーダ手法。
粗い注釈による事前学習を実施し、微細な注釈でファインチューニングする前に過小表現クラスを改善。
Wighted cross-entropy（クラス重み w_class = 1 / ln(c + p_class), c = 1.02）、L2 正則化、Adam オプティマイザ、バッチ正規化、ImageNet 事前学習済みエンコーダ重みを用いた学習設定。
512x1024 CityScapes 画像（20 クラス）を用いた実験；コードは公開公開予定。

実験結果

リサーチクエスチョン

RQ1リアルタイムセグメンテーションにおいて、異なるデコーディング戦略は速度と精度にどう影響するか？
RQ2チャネルシャッフルを用いた ShuffleNet ベースのエンコーダは、計算コストを抑えつつ競争力のある精度を維持できるか？
RQ3より大規模でノイズの多い注釈による粗い事前学習は、CityScapes の細かなクラスの性能を改善するか？
RQ4ShuffleSeg の組み込みハードウェア上の実用的なリアルタイム性能（FPS）は？
RQ5ShuffleSeg は最先端の軽量セグメンテーションネットワークと FLOPs および精度でどう比較されるか？

主な発見

Model	GFLOPs	Class IoU	Class iIoU	Category IoU	Category iIoU
SegNet	286.03	56.1	34.2	79.8	66.4
ENet	3.83	58.3	24.4	80.4	64.0
ShuffleSeg	2.03	58.3	32.4	80.2	62.2

SkipNet デコーディングは、検討された手法の中で最良の効率-精度トレードオフを提供する。
ShuffleSeg は 2.03 GFLOPs を必要とし、CityScapes テストで 58.3% mean IoU を達成（軽量ライバルと同等）。
ShuffleSeg は NVIDIA Jetson TX2 で 15.7 FPS で動作し、組み込みデバイスでのリアルタイム展開をサポート。
粗い事前学習は全体 mean IoU で約 4% の顕著な精度向上をもたらす。
SegNet と比較して ShuffleSeg は GFLOPs を 141x 減らして同等の精度を達成；ENet と比較しても 2x 少ない GFLOPs で同等の精度（58.3% mIoU）を実現。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。