Skip to main content
QUICK REVIEW

[論文レビュー] LEDNet: A Lightweight Encoder-Decoder Network for Real-Time Semantic Segmentation

Yu Wang, Quan Zhou|arXiv (Cornell University)|May 7, 2019
Advanced Neural Network Applications参考文献 26被引用数 21
ひとこと要約

LEDNet は、残差ブロックにおけるチャネルスプリットおよびシャッフル操作を用いて計算量を削減しながら精度を維持する、軽量で非対称なエンコーダ・デコーダ畳み込みニューラルネットワーク(CNN)であり、デコーダに注目メトリックスピラルネットワーク(APN)を採用して特徴表現を強化している。1つのGTX 1080Tiで100万パラメータ未満で、87.1%のカテゴリmIoUと71FPS以上の速度を達成し、最先端の性能を発揮する。

ABSTRACT

The extensive computational burden limits the usage of CNNs in mobile devices for dense estimation tasks. In this paper, we present a lightweight network to address this problem,namely LEDNet, which employs an asymmetric encoder-decoder architecture for the task of real-time semantic segmentation.More specifically, the encoder adopts a ResNet as backbone network, where two new operations, channel split and shuffle, are utilized in each residual block to greatly reduce computation cost while maintaining higher segmentation accuracy. On the other hand, an attention pyramid network (APN) is employed in the decoder to further lighten the entire network complexity. Our model has less than 1M parameters,and is able to run at over 71 FPS in a single GTX 1080Ti GPU. The comprehensive experiments demonstrate that our approach achieves state-of-the-art results in terms of speed and accuracy trade-off on CityScapes dataset.

研究の動機と目的

  • モバイルおよびリアルタイムアプリケーションにおけるディープCNNの計算負荷を軽減すること、特にセマンティックセグメンテーションのような密度予測タスクに特化して。
  • リソース制約のあるデバイスへのデプロイに適した、高いセグメンテーション精度と低い推論コストを両立する軽量ネットワークの設計。
  • 残留ブロックに新しい演算を導入し、効率的なデコーダアーキテクチャを採用することで、モデルの複雑さを低減しつつ特徴表現を損なわないようにすること。
  • CityScapesベンチマークにおいて、速度、精度、モデルサイズの新しい最良のトレードオフを達成すること。

提案手法

  • エンコーダは、チャネルスプリットおよびシャッフル操作を適用することで特徴の通信を向上させつつ計算コストを低減する、新しい残留モジュールを備えたResNetベースのバックボーンを採用する。
  • チャネルスプリットにより、入力特徴をチャンネル数が半分の2つのブランチに分割し、その後、ディープワイド分離畳み込みとチャネルシャッフルを実行してチャンネル間の特徴を混合する。
  • デコーダは、学習可能な注目重みを用いた空間ピラミッドプーリングを採用する注目メトリックスピラルネットワーク(APN)を採用し、マルチスケール特徴を効率的に統合する。
  • APN構造により、パrameter数を著しく増加させることなく広い受容 field を実現でき、最小限の計算オーバーヘッドで特徴表現を向上させる。
  • ネットワーク全体は、標準的な最適化手法(ポリ学習率ポolic、モーメンタム、重み減衰)を用いてエンドツーエンドで訓練される。
  • パrameter数の最小化と因子分解畳み込みの使用により、推論速度を最適化し、消費者用GPUで高いFPSを達成する。

実験結果

リサーチクエスチョン

  • RQ1軽量なエンコーダ・デコーダアーキテクチャは、モバイルプラットフォーム上でリアルタイム推論速度を維持しながら高いセグメンテーション精度を達成できるか?
  • RQ2チャネルスプリットおよびシャッフル操作は、残留ブロックにおける特徴表現の向上と計算量の削減にどのように寄与するか?
  • RQ3デコーダに注目ベースのピラミッド構造を導入することで、複雑な拡張畳み込みを置き換えつつ、低い複雑さで性能を維持できるか?
  • RQ4非対称なエンコーダ・デコーダ設計を用いる場合、モデルサイズ、推論速度、セグメンテーション精度のトレードオフはどのように変化するか?

主な発見

  • LEDNetは、精細および粗いアノテーションの両方を用いて学習した場合、CityScapesテストセットで87.1%のカテゴリmIoUを達成し、比較したすべてのベースラインを上回った。
  • 1つのGTX 1080Ti GPUで71FPS以上で実行可能であり、リアルタイムアプリケーションに適している。
  • 100万パラメータ未満という小さなモデルサイズでありながら、SegNetの30倍も小さく、ENetの1.5倍も高速で、かつ高い精度を達成している。
  • CityScapesデータセットにおいて、速度と精度のトレードオフを最も優れたバランスで達成しており、ERFNet、ICNet、CGNetなどの最先端の軽量ネットワークを上回っている。
  • CityScapesテストセットの19のカテゴリのうち13のカテゴリで最高のmIoUを達成しており、物体クラス全体にわたる優れた一般化性能を示している。
  • 可視化比較では、LEDNetが小形および複雑な物体(例:歩行者、交通標識)に対しても一貫性があり、正確なセグメンテーション結果を生成していることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。