[論文レビュー] FasterSeg: Searching for Faster Real-time Semantic Segmentation
FasterSeg は自動的にマルチ解像度 NAS をリアルタイムセマンティックセグメンテーションのために設計し、Cityscapes における最も近い手動ベースラインより速度を 30% 以上向上させつつ、競争力のある精度を維持します。遅延のデカップリング正規化と教師-生徒の共探索拡張を導入します。
We present FasterSeg, an automatically designed semantic segmentation network with not only state-of-the-art performance but also faster speed than current methods. Utilizing neural architecture search (NAS), FasterSeg is discovered from a novel and broader search space integrating multi-resolution branches, that has been recently found to be vital in manually designed segmentation models. To better calibrate the balance between the goals of high accuracy and low latency, we propose a decoupled and fine-grained latency regularization, that effectively overcomes our observed phenomenons that the searched networks are prone to "collapsing" to low-latency yet poor-accuracy models. Moreover, we seamlessly extend FasterSeg to a new collaborative search (co-searching) framework, simultaneously searching for a teacher and a student network in the same single run. The teacher-student distillation further boosts the student model's accuracy. Experiments on popular segmentation benchmarks demonstrate the competency of FasterSeg. For example, FasterSeg can run over 30% faster than the closest manually designed competitor on Cityscapes, while maintaining comparable accuracy.
研究の動機と目的
- リアルタイムなセマンティックセグメンテーションを厳密な遅延制約のもとで動機づける。
- 手作業で作られた効率的なモデルから着想を得たマルチ解像度ブランチを活用する NAS フレームワークを開発する。
- NAS 探索中のアーキテクチャ崩壊を防ぐための細粒度遅延正規化を導入する。
- fasterSeg を教師-学生共探索フレームワークへ拡張し、学生の精度を向上させる。
- Cityscapes での最先端の速度と競争力のある精度を示し、CamVid や BDD への転移性を示す。
提案手法
- 複数解像度ブランチを持ち、ヘッドモジュールによって適応的に選択・統合できる新規探索空間を提案する。
- 受容野を広げつつ遅延を抑えるためのズームド畳み込み (downsample + conv + upsample) を導入する。
- 単一演算子内で展開比を探索する微分可能なスーパーカーネルを用い、幅の最適化を柔軟にする。
- 学習可能なアーキテクチャパラメータ(alphas、betas、gammas)とGumbel-Softmaxを用いた探索空間の連続緩和を適用してアーキテクチャをサンプルする。
- 演算子、ダウンサンプリング率、展開比を分離した細粒度遅延正規化を開発し、アーキテクチャ崩壊を防ぐ。
- 教師-学生共探索フレームワークへ拡張し、1 回の実行で教師と学生を最適化し、訓練中に蒸留して学生の精度を向上させる。
- 学習確率から最良の演算子と展開比を選択し、学習済み確率からブランチのダウンサンプリング位置を決定して離散的なアーキテクチャを導出する。
実験結果
リサーチクエスチョン
- RQ1マルチ解像度 NAS 探索空間は、手作業モデルに似たブランチ多様性を活用することでリアルタイム分割の性能を向上させられるか?
- RQ2細粒度遅延正規化は遅延制約下の NAS 探索時のアーキテクチャ崩壊を緩和できるか?
- RQ3NAS 内の教師-学生共探索は、遅延を増加させることなく軽量な学生ネットワークの精度を向上させるか?
- RQ4 FasterSeg は標準的なリアルタイム分割のベンチマークで、手作り設計のアーキテクチャと比較してどのようにパフォーマンスするか?
- RQ5 FasterSeg の設計はデータ拡張なしで Cityscapes、CamVid、BDD へ転用可能か?
主な発見
| 手法 | Cityscapes mIoU (%) | Cityscapes FPS | Cityscapes 解像度 |
|---|---|---|---|
| ENet | 58.3 | 76.9 | 512 × 1024 |
| ICNet | 67.7 | 69.5 | 1024 × 2048 |
| BiSeNet | 69.0 | 68.4 | 768 × 1536 |
| CAS | 71.6 | 70.5 | 768 × 1536 |
| Fast-SCNN | 68.6 | 68.0 | 1024 × 2048 |
| DF1-Seg-d8 | 72.4 | 71.4 | 1024 × 2048 |
| FasterSeg (ours) | 73.1 | 71.5 | 1024 × 2048 |
- FasterSeg は Cityscapes val で 73.1% mIoU、163.9 FPS(1024x2048)を達成し、いくつかの手動アーキテクチャより高速で、精度も競争力を維持。
- 適応的なブランチ統合を備えたマルチ解像度探索空間はリアルタイム分割に有効で、展開比探索(χ)により精度を犠牲にせず高速なモデルを得られる。
- 細粒度遅延正規化はアーキテクチャ崩壊をうまく抑制し、探索を速度と精度の両方に整合させる。
- 教師-学生共探索は蒸留ベースの手法より高精度の学生(73.1% mIoU)を生み出し、NAS 探索と知識移転の共同の価値を示す。
- Cityscapes では FasterSeg は FPS(163.9)で複数のベースラインを上回り、競争力のある mIoU(73.1%)を達成し、CamVid(398.1 FPS)および BDD(318.0 FPS)への転移性も示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。