[論文レビュー] FBNetV2: Differentiable Neural Architecture Search for Spatial and Channel Dimensions
FBNetV2 は、特徴マップの再利用を可能にするマスキング機構を用いることで、空間的(入力解像度)およびチャネル次元(フィルタ数)の両方を効率的に共同探索できる微分可能ニューラルアーキテクチャサーチ(DNAS)手法 DMaskingNAS を導入した。この手法により、メモリおよび計算コストをほぼ一定に保ちながら、探索空間を最大 10^14 倍に拡大可能となり、MobileNetV3-Small よりも 15% 少ない FLOPs、Efficient-B0 よりも 20% 少ない FLOPs で最先端の精度を達成した。
Differentiable Neural Architecture Search (DNAS) has demonstrated great success in designing state-of-the-art, efficient neural networks. However, DARTS-based DNAS's search space is small when compared to other search methods', since all candidate network layers must be explicitly instantiated in memory. To address this bottleneck, we propose a memory and computationally efficient DNAS variant: DMaskingNAS. This algorithm expands the search space by up to $10^{14} imes$ over conventional DNAS, supporting searches over spatial and channel dimensions that are otherwise prohibitively expensive: input resolution and number of filters. We propose a masking mechanism for feature map reuse, so that memory and computational costs stay nearly constant as the search space expands. Furthermore, we employ effective shape propagation to maximize per-FLOP or per-parameter accuracy. The searched FBNetV2s yield state-of-the-art performance when compared with all previous architectures. With up to 421$ imes$ less search cost, DMaskingNAS finds models with 0.9% higher accuracy, 15% fewer FLOPs than MobileNetV3-Small; and with similar accuracy but 20% fewer FLOPs than Efficient-B0. Furthermore, our FBNetV2 outperforms MobileNetV3 by 2.6% in accuracy, with equivalent model size. FBNetV2 models are open-sourced at https://github.com/facebookresearch/mobile-vision.
研究の動機と目的
- DNAS におけるメモリおよび計算コストのボトル neck を克服し、特に空間的およびチャネル次元の探索空間の拡大を可能にすること。
- 禁止的なメモリまたは計算コストを伴わずに、異なるiableフレームワーク内で入力解像度とフィルタ数の両方を共同で探索できること。
- ImageNet における効率的ニューラルネットワークの精度、FLOPs、モデルサイズの面で最先端のパフォーマンスを達成すること。
- 大規模なアーキテクチャサーチを可能にしつつ、トレーニング効率を維持できるスケーラブルでメモリ効率の良い DNAS 法を開発すること。
提案手法
- 学習可能なマスクを用いて、共有スーパーグラフ内で複数のチャネルおよび解像度オプションを表現する DNAS の変種 DMaskingNAS を導入し、共同最適化を可能にした。
- 特徴マップが重み付きマスクの組み合わせにより、すべてのチャネルおよび解像度オプションで再利用されるマスキング機構を採用し、メモリおよび計算コストのオーバーヘッドを最小限に抑えた。
- 探索中に正確な勾配伝搬および性能推定を保証するため、有効な形状伝搬を適用し、FLOPs およびパラメータあたりの精度を最大化した。
- トレーニング中に最適なチャネルおよび解像度構成を微分可能に選択するために、Gumbel-Softmax を用いた重み共有近似を適用した。
- チャネル数、カーネルサイズ、層数、ボトルネックタイプ、入力解像度、拡張率の 6 つのアーキテクチャ次元を共同で探索可能とした。
- すべての候補アーキテクチャが暗黙的に表現されるスーパーグラフ定式化を活用し、極めて拡大された探索空間におけるエンドツーエンドの微分可能最適化を可能にした。
実験結果
リサーチクエスチョン
- RQ1禁止的なメモリまたは計算コストを伴わずに、空間的(入力解像度)およびチャネル的(フィルタ数)次元における DNAS を効率的に拡張可能か?
- RQ2多数のチャネルおよび解像度オプションにおいて、特徴マップの再利用をどのように実現し、探索中にほぼ一定のメモリ使用量を維持できるか?
- RQ3微分可能探索フレームワークが、マクロアーキテクチャ(解像度、チャネル数)とマイクロアーキテクチャ(ブロック)を同時に最適化し、最先端のパフォーマンスを達成可能か?
- RQ4探索空間を最大 10^14 倍に拡大した場合、従来手法と比較して最終モデルの精度および効率にどのような影響を与えるか?
- RQ5提案手法は、既存の手動および自動設計モデルと比較して、より少ない FLOPs やパラメータで優れた精度を達成可能か?
主な発見
- FBNetV2-F1 は ImageNet で 68.3% のトップ-1 精度を達成し、FLOPs は 56M にとどまり、MobileNetV3-Small よりも 0.9% 高い精度で 15% 少ない FLOPs を使用した。
- FBNetV2-F4 は 76.0% のトップ-1 精度を達成し、FLOPs は 238M で、ResNet-50 と同等の精度を達成しながらもはるかに効率的であった。
- FBNetV2-P1 は 400 万パラメータで、MobileNetV3 よりも 2.6%、FBNet よりも 2.9% 高い精度を達成し、優れたパラメータ効率を示した。
- FBNetV2 の探索コストは 8 グラフィックス・ユニットで 27 時間であり、高い精度を達成しているにもかかわらず、MobileNetV3-Small の探索コストの 421 分の 1 にとどまった。
- DMaskingNAS は、1 ブロックあたり 32 個のチャネルオプションを扱えるが、メモリコストはほぼ一定を維持した。一方、従来の DNAS は 8 オプションを超えるとメモリに収まらなかった。
- FBNetV2-L1 は 325M FLOPs で 77.2% のトップ-1 精度を達成し、EfficientNet-B0(77.3%、390M FLOPs)を上回る FLOP 効率を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。