[論文レビュー] Once-for-All: Train One Network and Specialize it for Efficient Deployment on Diverse Hardware Platforms
この論文では、再訓練を必要とせず、多様なハードウェアプラットフォームに効率的に特化可能な1つのニューラルネットワークアーキテクチャであるOnce-for-All (OFA) を提案する。トレーニングと探索を分離し、プログレッシブシュリンクを用いることで、同一の精度で独立して訓練されたモデルと同等の精度を達成する10^19個以上のサブネットワークを生成し、600M MAC未満の条件下でImageNetのトップ-1精度80.0%というSOTAを達成するとともに、GPU時間とCO₂排出量の両面で訓練コストを桁違いに削減した。
We address the challenging problem of efficient inference across many devices and resource constraints, especially on edge devices. Conventional approaches either manually design or use neural architecture search (NAS) to find a specialized neural network and train it from scratch for each case, which is computationally prohibitive (causing $CO_2$ emission as much as 5 cars' lifetime) thus unscalable. In this work, we propose to train a once-for-all (OFA) network that supports diverse architectural settings by decoupling training and search, to reduce the cost. We can quickly get a specialized sub-network by selecting from the OFA network without additional training. To efficiently train OFA networks, we also propose a novel progressive shrinking algorithm, a generalized pruning method that reduces the model size across many more dimensions than pruning (depth, width, kernel size, and resolution). It can obtain a surprisingly large number of sub-networks ($> 10^{19}$) that can fit different hardware platforms and latency constraints while maintaining the same level of accuracy as training independently. On diverse edge devices, OFA consistently outperforms state-of-the-art (SOTA) NAS methods (up to 4.0% ImageNet top1 accuracy improvement over MobileNetV3, or same accuracy but 1.5x faster than MobileNetV3, 2.6x faster than EfficientNet w.r.t measured latency) while reducing many orders of magnitude GPU hours and $CO_2$ emission. In particular, OFA achieves a new SOTA 80.0% ImageNet top-1 accuracy under the mobile setting ($<$600M MACs). OFA is the winning solution for the 3rd Low Power Computer Vision Challenge (LPCVC), DSP classification track and the 4th LPCVC, both classification track and detection track. Code and 50 pre-trained models (for many devices & many latency constraints) are released at this https URL.
研究の動機と目的
- エッジデバイスや遅延制約ごとに個別に訓練されたニューラルネットワークの高い計算コストと環境への影響を低減すること。
- 既存のNASや手動アーキテクチャ設計のスケーラビリティの限界を克服し、多様なハードウェアプラットフォームに効率的に展開可能な手法を提供すること。
- 従来のアプローチと比較して、訓練時間と炭素足跡を著しく削減しながらも高い精度を維持する手法を開発すること。
- 各ハードウェア構成ごとに再訓練を行わず、1つの事前訓練済みネットワークから迅速に推論特化を実現すること。
提案手法
- 深度、幅、カーネルサイズ、入力解像度の多様なアーキテクチャ設定を1つの共同トレーニングプロセスでサポートする、一度のための(OFA)ニューラルネットワークを提案する。
- 複数の次元を同時に縮小することで、OFAネットワークの効率的トレーニングを可能にする一般化されたプルーニング手法「プログレッシブシュリンク」を導入する。
- トレーニングフェーズとアーキテクチャ探索フェーズを分離し、事前学習済みOFAネットワークから直接サブネットワークを選択可能にする。
- 深度、幅、カーネルサイズ、入力解像度の各次元において、段階的にネットワーク容量を縮小するプログレッシブシュリンクスケジュールを用いてOFAネットワークをトレーニングする。
- 微調整を一切行わずに、スクラッチから訓練されたモデルと同等の精度を維持する、OFAアーキテクチャから導出されるすべてのサブネットワークを保証する。
- 1つの大規模なトレーニングプロセスを活用して、広範なサブネットワークの暗黙的学習を実現し、さまざまなハードウェア制約に迅速に展開可能にする。
実験結果
リサーチクエスチョン
- RQ11回のトレーニングで済ませ、再訓練なしに多様なハードウェアプラットフォームに効率的に特化可能な1つのニューラルネットワークが可能か?
- RQ2プログレッシブシュリンクのような一般化されたプルーニング手法は、膨大な数のサブネットワーク設定においても高い精度を維持しながら、トレーニングコストを削減できるか?
- RQ3OFAアプローチは、厳密なモバイル推論制約(例:600M MAC未満)の下でSOTAのパフォーマンスを達成できるか? また、CO₂排出量を著しく削減できるか?
- RQ4OFAのパフォーマンスは、エッジデバイスにおける精度、遅延、効率性の観点から、既存のNASおよび手動設計モデルと比較してどうか?
- RQ5OFAフレームワークは、モデル精度を損なわずに、広範なハードウェアおよび遅延制約をカバーできるか、そのスケーラビリティはどの程度か?
主な発見
- OFAは、60000万未満のMACで動作するモバイル設定下で、ImageNetのトップ-1精度80.0%という、新たなSOTAを達成した。
- OFAは、ImageNetにおけるトップ-1精度でMobileNetV3を最大4.0%上回り、遅延効率は同等または向上させた。
- OFAは、測定された遅延制約下で、MobileNetV3に比べ1.5倍、EfficientNetに比べ2.6倍高速な推論を実現した。
- OFAフレームワークは、独立して訓練されたモデルと同等の精度を維持する10^19個以上の異なるサブネットワークを生成し、広範なハードウェア互換性を実現した。
- OFAは、従来のNASや手動アーキテクチャ探索と比較して、GPUトレーニング時間とCO₂排出量を多数の桁違いに削減した。
- OFAは第3回および第4回のLow Power Computer Vision Challenge(LPCVC)の両方の分類および検出のトラックで優勝し、実世界での展開効果を実証した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。