QUICK REVIEW

[論文レビュー] FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation

Huikai Wu, Junge Zhang|arXiv (Cornell University)|Mar 28, 2019

Advanced Neural Network Applications参考文献 38被引用数 226

ひとこと要約

Joint Pyramid Upsampling (JPU)を提案し、バックボーンの重い拡張畳み込みを置換、推論を高速化し Pascal Context と ADE20K で最先端の結果を得る。高解像度の特徴抽出を共通アップサンプリング問題として再定式化。

ABSTRACT

Modern approaches for semantic segmentation usually employ dilated convolutions in the backbone to extract high-resolution feature maps, which brings heavy computation complexity and memory footprint. To replace the time and memory consuming dilated convolutions, we propose a novel joint upsampling module named Joint Pyramid Upsampling (JPU) by formulating the task of extracting high-resolution feature maps into a joint upsampling problem. With the proposed JPU, our method reduces the computation complexity by more than three times without performance loss. Experiments show that JPU is superior to other upsampling modules, which can be plugged into many existing approaches to reduce computation complexity and improve performance. By replacing dilated convolutions with the proposed JPU module, our method achieves the state-of-the-art performance in Pascal Context dataset (mIoU of 53.13%) and ADE20K dataset (final score of 0.5584) while running 3 times faster.

研究の動機と目的

セマンティック分割のためのバックボーンにおける拡張畳み込みが生み出す計算量とメモリのオーバーヘッドを低減することを目的とする。
高解像度特徴マップの抽出を共用アップサンプリング問題として再定式化する。
Joint Pyramid Upsampling (JPU)モジュールを導入し、推論を高速化しつつ精度を保持することを検証する。

提案手法

バックボーンの最末尾2つの段をストライド畳み込みと通常の畳み込みで置換し、マルチレベル特徴量（Conv3–Conv5）を生成する。
共測アップサンプリングをCNNベースの学習問題として定式化し、DilatedFCNの最終解像度特徴マップを近似する。
dilation rates 1, 2, 4, 8 の並列分離畳み込みを用いて、マルチレベル入力を結合された高解像度特徴マップへ写像するJPUを開発。
Conv3–Conv5 からアップサンプリングされた特徴を融合し、グローバル/コンテキストモジュール（PSP/ASPP or Encoding）で最終写像を適用して予測を生成する。
複数のバックボーン（ResNet-50/101）にわたり、bilinearやFPNといったさまざまなアップサンプリングモジュールをJPUが置換できることを示す。
精度を維持または向上させつつ、時間・メモリの効率を3倍向上させることを示す。

実験結果

リサーチクエスチョン

RQ1バックボーンの拡張畳み込みを、セグメンテーション精度を犠牲にせずに軽量なアップサンプリングモジュールで置換できるか？
RQ2マルチレベルのバックボーン特徴を活用した共用アップサンプリングアプローチは、従来のbilinearアップサンプリングおよびFPNと比較して精度と速度の点でどうか？
RQ3JPUはPSP/ASPP/Encodingなどの既存のコンテキストモジュールと異なるバックボーンネットワークに対して一般化でき、標準ベンチマークで最先端の結果を得られるか？

主な発見

手法	バックボーン	pixAcc%	mIoU%
FCN	(baseline)	71.32	29.39
SegNet	-	71.00	21.64
DilatedNet	-	73.55	32.31
CascadeNet	-	74.52	34.90
RefineNet	ResNet-152	-	40.7
PSPNet	ResNet-101	81.39	43.29
ResNet-269	-	81.69	44.94
EncNet	ResNet-101	81.69	44.65
DUpsampling	Xception-71	-	52.5
EncNet+JPU	ResNet-101	-	53.1

JPUは主要ベンチマークでmIoUを維持または向上させつつ、計算量とメモリ使用を大幅に削減（3倍以上高速）する。
Pascal Context with ResNet-101では、EncNet+JPUが53.1% mIoU（val set）を達成し、いくつかの既存手法を上回る。
ADE20Kでは、ResNet-50を用いた場合 val set で 42.75% mIoU を、ResNet-101を用いた場合 test set で 0.5584 の最終スコアを達成しており、競争力があるか最先端の性能を示している。
拡張畳み込みをJPUに置換することで、EncNet, DeepLabV3 (ASPP), PSPNet, そして DeepLab 系のバリアント全般で一貫して性能が向上または同等になる。
アブレーションでは、bilinearアップサンプリングおよびFPNは pixAcc および mIoU の双方でJPUに劣ることが示され、マルチレベル特徴融合におけるJPUの有効性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。