QUICK REVIEW

[論文レビュー] ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

Adam Paszke, Abhishek Chaurasia|arXiv (Cornell University)|Jun 7, 2016

Advanced Neural Network Applications被引用数 1,258

ひとこと要約

ENetは、 prior models よりはるかにパラメータ数と FLOPs を抑えたリアルタイムのセマンティックセグメンテーション用の軽量エンコーダ-デコーダネットワークであり、Cityscapes、CamVid、SUN データセットで競合するかそれ以上の精度を発揮し、組み込みハードウェア上で動作します。

ABSTRACT

The ability to perform pixel-wise semantic segmentation in real-time is of paramount importance in mobile applications. Recent deep neural networks aimed at this task have the disadvantage of requiring a large number of floating point operations and have long run-times that hinder their usability. In this paper, we propose a novel deep neural network architecture named ENet (efficient neural network), created specifically for tasks requiring low latency operation. ENet is up to 18$\ imes$ faster, requires 75$\ imes$ less FLOPs, has 79$\ imes$ less parameters, and provides similar or better accuracy to existing models. We have tested it on CamVid, Cityscapes and SUN datasets and report on comparisons with existing state-of-the-art methods, and the trade-offs between accuracy and processing time of a network. We present performance measurements of the proposed architecture on embedded systems and suggest possible software improvements that could make ENet even faster.

研究の動機と目的

低電力/モバイルデバイスでリアルタイムの画素単位セマンティックセグメンテーションの必要性に対応する。
小さなメモリフットプリントと高速推論を備えた効率的なエンコーダ-デコーダネットワークを開発する。
速度を保ちつつ空間情報を保持する設計選択を探る。
Cityscapes、CamVid、SUNでENetをベンチマークし、組み込みハードウェアの性能も含める。

提案手法

ボトルネックブロックとエンコーダ-デコーダ構造を持つENetアーキテクチャを導入する。
情報フローを保持し速度を向上させるため、パラレルプーリングを用いた初期ダウンサンプリングを使用する。
大きな受容野を過剰な計算なしに得るため、拡張畳み込みと非対称畳み込みを用いる。
初期層での情報フローを改善するためにReLUをPReLU非線形性に置換する。
Spatial Dropoutを適用し、射影時にバイアス項を避けてメモリ/計算を削減する。
カーネル融合の考慮を採用し、エンドツーエンドの高速推論を可能にするために過度な後処理を避ける。

実験結果

リサーチクエスチョン

RQ1ENetは組み込みハードウェア上でリアルタイムのセマンティックセグメンテーションを達成し、標準ベンチマークで競争力のある精度を維持できるか？
RQ2ENetの速度と精度のバランスを最も効く設計選択は何か（ダウンサンプリング戦略、拡張/非対称畳み込み、非線形性）？
RQ3Cityscapes、CamVid、SUNでSegNetや他のベースラインと比較してENetの性能はどうか？
RQ4ハードウェア要件と実用デプロイに影響する潜在的なソフトウェア制限は何か？

主な発見

ENetはSegNetより大幅に低いFLOPs(3.83 GFLOPs)とパラメータ(0.37M)を実現し、モデルサイズは約0.7 MB (fp16)。
TX1組み込みハードウェア上で、ENetは21.1 fps (480×320) と14.6 fps (640×360) を実行し、同じプラットフォームでSegNetの速度を大きく上回る。
Titan Xでは、ENetは実時間性能を維持し、競争力のある精度を示す（Cityscapes: class IoU 58.3 vs SegNet 56.1; Cityscapes category IoU 80.4 vs 79.8）。
Cityscapesテスト結果では、ENetはSegNetと比べ高いクラスIoUと競争力のあるカテゴリIoUを示し、同時にCityscapesベンチマークで当時最速のモデルであった。
CamVidの結果は、複数のクラスでいくつかのベースラインを上回り、meanIoUも競争力がある。
SUN RGB-Dの結果は、ENetのグローバル平均およびクラス平均精度がSegNetより低いが、RGBデータのリアルタイム性能向上という意味ある利点を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。