QUICK REVIEW

[論文レビュー] DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation

Hanchao Li, Pengfei Xiong|arXiv (Cornell University)|Apr 3, 2019

Advanced Neural Network Applications参考文献 35被引用数 57

ひとこと要約

DFANetは、サブネットワークとサブステージの cascades を用いた深い特徴集約により、FLOPsを大幅に削減しつつ高解像度でリアルタイムの意味セグメンテーションを実現し、競争力のある精度を達成します。

ABSTRACT

This paper introduces an extremely efficient CNN architecture named DFANet for semantic segmentation under resource constraints. Our proposed network starts from a single lightweight backbone and aggregates discriminative features through sub-network and sub-stage cascade respectively. Based on the multi-scale feature propagation, DFANet substantially reduces the number of parameters, but still obtains sufficient receptive field and enhances the model learning ability, which strikes a balance between the speed and segmentation performance. Experiments on Cityscapes and CamVid datasets demonstrate the superior performance of DFANet with 8$\times$ less FLOPs and 2$\times$ faster than the existing state-of-the-art real-time semantic segmentation methods while providing comparable accuracy. Specifically, it achieves 70.3\% Mean IOU on the Cityscapes test dataset with only 1.7 GFLOPs and a speed of 160 FPS on one NVIDIA Titan X card, and 71.3\% Mean IOU with 3.4 GFLOPs while inferring on a higher resolution image.

研究の動機と目的

高計算資源の制約下で高解像度画像に対するリアルタイム意味セグメンテーションの課題に取り組む。
多段階のコンテキストと空間的ディテールを融合する軽量で識別力のある特徴集約機構を開発する。
高レベル特徴の再利用と段階・ネットワークを横断した特徴の集約によって推論速度と精度のバランスを取る。
cascaded なマルチバックボーン設計が既存のリアルタイム手法と比較して速度で優位性を持ち、mIoUで競争力を維持できることを示す。

提案手法

深さwise分離畳み込みを用いた軽量バックボーンを採用する。
サブネットワーク集約を導入する：1つのバックボーンの出力を次のバックボーンへ feed して高レベル特徴を改良する。
サブステージ集約を導入する：バックボーン間の対応する段階で特徴を融合し、空間的ディテールと文脈を保持する。
バックボーン末端にFC注意機構を追加し、可処分計算で受容野を拡大する。
高レベルと低レベルの特徴をアップサンプリングと単純な畳み込みで融合する軽量デコーダを使用する。
標準のクロスエントロピー損失とデータ拡張を用いて、poly学習率ポリシーを持つSGDで訓練する。

実験結果

リサーチクエスチョン

RQ1ネットワークレベルと段階間の深い特徴集約は、リアルタイム制約下でセグメンテーション精度を向上させるか。
RQ2複数の軽量バックボーンを積み重ね、段階レベルの融合を行うことが、精度とFLOPsにどのような影響を与えるか。
RQ3CityscapesとCamVidで、DFANetは速度と精度の両面で最先端のリアルタイム手法と比較してどの程度優れているか。
RQ4意味セグメンテーションの軽量バックボーンにおけるFC注意の役割は何か。
RQ5入力解像度、バックボーンの複雑さ、全体性能のトレードオフはどうなるか。

主な発見

モデル	入力サイズ	FLOPs	パラメータ	時間(ms)	フレーム(fps)	mIoU(%)
SegNet	640 × 360	286G	29.5M	217	46	46.4
DPN	?	830G	1?M	-	-	60.1
DeepLab	512 × 1024	457.8G	262.1M	4000	0.25	63.1
ENet	640 × 360	3.8G	0.4M	-	-	51.3
ICNet	1024 × 2048	28.3G	26.5M	33	30.3	69.5
TwoColumn	512 × 1024	57.2G	-	68	14.7	72.9
BiSeNet1	768 × 1536	14.8G	5.8M	13	~	68.4
BiSeNet2	768 × 1536	55.3G	49M	21	~	74.7
DFANet A	1024 × 1024	3.4G	7.8M	10	100	71.3
DFANet B	1024 × 1024	2.1G	4.8M	8	120	67.1
DFANet A’	512 × 1024	1.7G	7.8M	6	160	70.3

DFANetはCityscapes検証データセットで Backbone A x3+HL+LL の場合3.4 GFLOPs、mIoUは71.9%を達成し、Backbone B x3+HL+LL では2.1 GFLOPsで68.4%のmIoU。
Cityscapes テストでは、DFANet A が 3.4 GFLOPs で 71.3% mIoU、100 FPS を達成、DFANet A’ は 1.7 GFLOPs、160 FPS で 70.3% mIoU。
従来のリアルタイム手法と比較して、DFANet は FLOPs が最大8倍小さく、速度が最大2倍高速で、精度は競争力を維持。
DFANet は Cityscapes の多くのリアルタイムベースラインを上回り、はるかに少ない FLOPs（例：1.7G–3.4G FLOPs 系で 70–71% mIoU）で優れた性能を示す。
CamVid の結果は、DFANet A が 120 FPS、DFANet B が 160 FPS、ハイレゾリューションのビデオフレームに対して競争力のある mIoU。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。