[論文レビュー] Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation
本稿では、非対称畳み込み、拡張畳み込み、および密接続を用いたリアルタイム意味セグメンテーションネットワークEDANetを提案する。計算コストを低く抑えながら高い精度を達成でき、1枚のGTX 1080Tiで108 FPSで動作し、最先端のモデルと同等のmIoUを達成する。追加モジュールや事前学習を用いずに、ICNetに比べ2.7倍の速度で性能を上回る。
Real-time semantic segmentation plays an important role in practical applications such as self-driving and robots. Most semantic segmentation research focuses on improving estimation accuracy with little consideration on efficiency. Several previous studies that emphasize high-speed inference often fail to produce high-accuracy segmentation results. In this paper, we propose a novel convolutional network named Efficient Dense modules with Asymmetric convolution (EDANet), which employs an asymmetric convolution structure and incorporates dilated convolution and dense connectivity to achieve high efficiency at low computational cost and model size. EDANet is 2.7 times faster than the existing fast segmentation network, ICNet, while it achieves a similar mIoU score without any additional context module, post-processing scheme, and pretrained model. We evaluate EDANet on Cityscapes and CamVid datasets, and compare it with the other state-of-art systems. Our network can run with the high-resolution inputs at the speed of 108 FPS on one GTX 1080Ti.
研究の動機と目的
- 自律走行やロボット工学などの実用的応用におけるリアルタイム意味セグメンテーションにおける速度と精度のトレードオフを解消すること。
- コンテキストモジュール、後処理、ImageNet事前学習に依存しない軽量なネットワークアーキテクチャを構築すること。
- 非対称畳み込みを拡張畳み込みと密接続と統合し、特徴表現を向上させつつFLOPsとモデルサイズを最小限に抑えること。
- 高解像度入力においても高い推論速度を達成し、最先端のモデルと同等のmIoUを維持すること。
提案手法
- 標準の3×3畳み込みを1×3および3×1の成分に分解する非対称畳み込みモジュールを設計し、FLOPsを33%削減する。
- 段階的に増加するレートを有する拡張畳み込みを組み込み、ダウンサンプリングを行わずに感受 field を拡大し、空間解像度を保持する。
- すべての層間に密なスキップ接続を適用し、特徴の再利用と勾配の流れを向上させ、表現学習を改善する。
- エンコーダ・デコーダ構造を採用し、マルチスケール特徴を用い、エンコーダおよびデコーダパスの両方で非対称モジュールを統合する。
- パrameter数とFLOPsを最小限に抑えながら、高解像度入力処理を維持するようにネットワークを最適化し、推論に最適化する。
- クラスの不均衡を補正するため、クラスバランス重みを用いた交差エントロピー損失を用いてエンドツーエンドで学習する。
実験結果
リサーチクエスチョン
- RQ1非対称畳み込みは、リアルタイムネットワークにおいてFLOPsを削減しつつ、セグメンテーション精度を維持できるか?
- RQ2拡張畳み込みと密接続の組み合わせは、空間解像度と特徴品質を保持するためにどれほど効果的か?
- RQ3コンテキストモジュールや後処理を用いずに、軽量なネットワークが競争力のあるmIoUを達成できるか?
- RQ4高解像度入力における標準ベンチマーク上での、提案アーキテクチャの推論速度は何か?
- RQ5CityscapesやCamVidなどの多様なデータセットにおいて、最先端の手法と比較してモデルの性能はいかがなっているか?
主な発見
- EDANetは、1枚のGTX 1080Tiで高解像度入力に対して108 FPSの推論速度を達成し、ICNetに比べ2.7倍の速度で性能を上回る。
- Cityscapes検証セットにおいて、mIoUが72.8%に達し、追加モジュールを用いずに最先端の性能を達成する。
- 非対称畳み込みの分解により、標準の3×3畳み込みに比べてFLOPsを33%削減する。
- 密接続による効果的な特徴伝搬のおかげで、希少クラスを含むすべてのクラスにおいて高い精度を維持する。
- CamVidデータセットでは72.1%のmIoUを達成し、異なるデータセット間での強い汎化性能を示す。
- ICNetに比べ2.7倍速く、mIoUは同等を維持するため、精度を犠牲にすることなく効率性を実証した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。