[論文レビュー] BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage Models
BigNAS は 200 MFLOPs から 1 GFLOP までの高品質な子アーキテクチャを、再訓練や後処理なしに直接出力する単一の大規模ステージモデルを訓練し、この範囲で最先端を上回る。
Neural architecture search (NAS) has shown promising results discovering models that are both accurate and fast. For NAS, training a one-shot model has become a popular strategy to rank the relative quality of different architectures (child models) using a single set of shared weights. However, while one-shot model weights can effectively rank different network architectures, the absolute accuracies from these shared weights are typically far below those obtained from stand-alone training. To compensate, existing methods assume that the weights must be retrained, finetuned, or otherwise post-processed after the search is completed. These steps significantly increase the compute requirements and complexity of the architecture search and model deployment. In this work, we propose BigNAS, an approach that challenges the conventional wisdom that post-processing of the weights is necessary to get good prediction accuracies. Without extra retraining or post-processing steps, we are able to train a single set of shared weights on ImageNet and use these weights to obtain child models whose sizes range from 200 to 1000 MFLOPs. Our discovered model family, BigNASModels, achieve top-1 accuracies ranging from 76.5% to 80.9%, surpassing state-of-the-art models in this range including EfficientNets and Once-for-All networks without extra retraining or post-processing. We present ablative study and analysis to further understand the proposed BigNASModels.
研究の動機と目的
- ポスト処理と子モデルの再訓練を排除することで、NAS の計算量と複雑さを削減する。
- 多様で高品質なアーキテクチャを直接スライスできる、単一ステージ・ウェイト共有モデルを開発する。
- FLOPsとデバイス予算の広範な範囲に対してデプロイ可能なアーキテクチャを実現する。
- 小さな子モデルと大きな子モデルの同時最適化を可能にするよう、訓練手法を系統的に適用・適応する。
- 特定のリソース制約の下でアーキテクチャを選択する coarse-to-fine の戦略を提供する。
提案手法
- カーネルサイズ、チャネル、深さ、解像度など、広範なアーキテクチャ空間をカバーするウェイト共有付きの大規模な単一ステージモデルを訓練する。
- Sandwich Ruleを用いて各ステップで最小・最大およびいくつかの中間の子モデルをサンプルし、勾配を集約する。
- インプレース蒸留を適用し、すべての子モデルが最大のフルモデルの予測から学習する。
- トレーニングを安定化させるためにγ=0で残差ブロックを初期化し、恒等写像のための明示的なステージ遷移を追加する。
- ビッグモデルとスモールモデルの収束を均衡させるため、一定の終端を持つ指数減衰学習率を用いる。
- 大きなモデルの過剰適合を防止しつつ小さなモデルを支援するため、最大のフル子モデルのみを正則化する(ウェイト減衰とドロップアウト)。
実験結果
リサーチクエスチョン
- RQ1単一の大規模な共有ウェイトモデルを訓練して、再訓練や後処理なしに高品質で展開可能な子アーキテクチャを得ることができるか?
- RQ2小さな子モデルと大きな子モデルの訓練ダイナミクスを、単一ステージモデル内でどのようにバランスさせることができるか?
- RQ3初期化、正則化、学習率戦略は、広いアーキテクチャ空間で安定かつ高精度な訓練を可能にするか?
- RQ4BigNASで訓練されたモデルを粗から細へ検索することで、特定のリソース予算の下で効率的にアーキテクチャを同定できるか?
- RQ5200 MFLOP から 1 GFLOP の範囲で、切り出した BigNAS アーキテクチャは最先端モデルと比較してどのように性能を発揮するか?
主な発見
- 単一ステージの BigNAS モデルは、~200 MFLOPs から ~1 GFLOP の子ネットワークを出力し、この範囲で再訓練や後処理なしで最先端を上回る。
- BigNAS モデルはこの範囲で ImageNet に対してトップ1 accuracy を 76.5% から 80.9% を達成し、特定の FLOP レジーム では EfficientNets や Once-for-All を含む改善を示す。
- BigNAS-S、BigNAS-M、BigNAS-L は、事前訓練済みの単一ステージモデルから直接スライスして、さまざまな制約下で展開できる。
- 単純な粗から細への選択戦略は、レイテンシ/ FLOP 予算を満たすアーキテクチャを競争力のある精度で識別する。
- ターゲットを絞った初期化と訓練スケジュールは、小さな子モデルと大きな子モデルの収束と最終精度を大幅に向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。