QUICK REVIEW

[論文レビュー] Light-Weight RefineNet for Real-Time Semantic Segmentation

Vladimir Nekrasov, Chunhua Shen|arXiv (Cornell University)|Oct 8, 2018

Advanced Neural Network Applications参考文献 57被引用数 101

ひとこと要約

この論文は RefineNet をコンパクトでリアルタイムなセマンティックセグメンテーションモデルへ適用し、冗長なブロックを削減し 3x3 畳み込みを 1x1 畳み込みに置換することで、パラメータを 2x以上削減しつつ精度の損失を最小限に抑え、512×512 入力で最大 55 FPS を達成する。

ABSTRACT

We consider an important task of effective and efficient semantic image segmentation. In particular, we adapt a powerful semantic segmentation architecture, called RefineNet, into the more compact one, suitable even for tasks requiring real-time performance on high-resolution inputs. To this end, we identify computationally expensive blocks in the original setup, and propose two modifications aimed to decrease the number of parameters and floating point operations. By doing that, we achieve more than twofold model reduction, while keeping the performance levels almost intact. Our fastest model undergoes a significant speed-up boost from 20 FPS to 55 FPS on a generic GPU card on 512x512 inputs with solid 81.1% mean iou performance on the test set of PASCAL VOC, while our slowest model with 32 FPS (from original 17 FPS) shows 82.7% mean iou on the same dataset. Alternatively, we showcase that our approach is easily mixable with light-weight classification networks: we attain 79.2% mean iou on PASCAL VOC using a model that contains only 3.3M parameters and performs only 9.3B floating point operations.

研究の動機と目的

高解像度入力でのリアルタイムなセマンティックセグメンテーションを動機づける。
RefineNet の計算ボトルネックを特定し大幅な精度低下なしに除去する。
エンコーダ-デコーダ型のセグメンテーションを軽量デコーダブロックで高速化できることを示す。
軽量バックボーン（NASNet-Mobile、MobileNet-v2）や他のバックボーンとの互換性を示す。

提案手法

CRP および融合ブロックの高価な 3x3 畳み込みを 1x1 畳み込みに置換してパラメータと FLOPs を削減する。
残差畳み込み（RCU）のボトルネック設計を採用し、冗長な場合には RCU ブロックを除去する。
CRP ブロックは context と経験的受容野を維持するために 5x5 プーリングを保持。
軽量版の Regime で RCU ブロックを省略しても性能の低下がないことを示す。
複数のバックボーン（ResNet-50/101/152、NASNet-Mobile、MobileNet-v2）でアーキテクチャを検証。

実験結果

リサーチクエスチョン

RQ1RefineNet をリアルタイム制約に適合させつつ大幅な精度低下なしに再構成できるか？
RQ2性能に不可欠な RefineNet の構成要素はどれで、どれを削除または簡略化できるか？
RQ3軽量版 RefineNet は異なるバックボーンとデータセットでどの程度の性能を示すか？
RQ43x3 畳み込みを 1x1 畳み込みに置換することでデコーダ内の文脈情報を preserve できるか？
RQ5軽量バックボーンを活用しつつ競争力のあるセグメンテーション品質を維持できるか？

主な発見

モデルサイズを二分に削減し、FLOP も大幅に削減しつつ平均 IoU で競争力を維持。
最速の LW-RefineNet は 512×512 入力で 55 FPS、PASCAL VOC テストセットで 81.1% mIoU を達成。
最も遅い LW-RefineNet（それでも元より速い）は VOC で 32 FPS、82.7% mIoU を達成。
NASNet-Mobile および MobileNet-v2 を用いた軽量版は、パラメータ数と FLOPs が大幅に少ないにもかかわらず競争力のある VOC 結果を達成。
アブレーションは CRP がセグメンテーション性能を支配していることを示し、軽量版で RCU ブロックを除去してもほとんどまたは全く性能低下がないことを示す。
このアプローチはさまざまなバックボーンと互換性があり、追加のモデル圧縮技術で補完可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。