QUICK REVIEW

[論文レビュー] Once-for-All: Train One Network and Specialize it for Efficient Deployment

Han Cai, Chuang Gan|arXiv (Cornell University)|Aug 26, 2019

Advanced Neural Network Applications参考文献 42被引用数 98

ひとこと要約

要約: 本論文は Once-for-All (OFA) を紹介します。これは、深さ、幅、カーネルサイズ、解像度という巨大なサブネットワーク空間をサポートする単一の訓練済みネットワークであり、効率的な進行的縮小トレーニング方式を用いて、さまざまなハードウェアへ訓練不要での素早い特化を可能にします。

ABSTRACT

We address the challenging problem of efficient inference across many devices and resource constraints, especially on edge devices. Conventional approaches either manually design or use neural architecture search (NAS) to find a specialized neural network and train it from scratch for each case, which is computationally prohibitive (causing $CO_2$ emission as much as 5 cars' lifetime) thus unscalable. In this work, we propose to train a once-for-all (OFA) network that supports diverse architectural settings by decoupling training and search, to reduce the cost. We can quickly get a specialized sub-network by selecting from the OFA network without additional training. To efficiently train OFA networks, we also propose a novel progressive shrinking algorithm, a generalized pruning method that reduces the model size across many more dimensions than pruning (depth, width, kernel size, and resolution). It can obtain a surprisingly large number of sub-networks ($> 10^{19}$) that can fit different hardware platforms and latency constraints while maintaining the same level of accuracy as training independently. On diverse edge devices, OFA consistently outperforms state-of-the-art (SOTA) NAS methods (up to 4.0% ImageNet top1 accuracy improvement over MobileNetV3, or same accuracy but 1.5x faster than MobileNetV3, 2.6x faster than EfficientNet w.r.t measured latency) while reducing many orders of magnitude GPU hours and $CO_2$ emission. In particular, OFA achieves a new SOTA 80.0% ImageNet top-1 accuracy under the mobile setting ($

研究の動機と目的

多様なハードウェアへの再訓練と設計コストを最小化した効率的なデプロイを動機づける。
共有重みによる多くのサブアーキテクチャをサポートする単一の Once-for-all ネットワークを提案する。
深さ、幅、カーネルサイズ、解像度の複数次元に渡って OFA ネットワークを訓練する進行的縮小を導入する。
再訓練なしでターゲットハードウェアに対する素早い、予測子ガイド付きの特化を実現する。

提案手法

深さ、幅、カーネルサイズ、解像度に対するエラスティックなアーキテクチャ空間を定義する。
最大ネットワークを最初に訓練し、その後、共有重みを用いてより小さなサブネットワークのサポートを徐々に縮小する。
縮小しても精度を維持するために知識蒸留を用いる。
サブネットワーク間で重みを共有し、約7.7M パラメータで >10^19 アーキテクチャをカバーする。
高速なハードウェア認識の特化のために、精度予測子とレイテンシ予測子（ニューラルネットの双子）を訓練する。
予測子に導かれたサブネットワークの進化的探索を行い、ハードウェア制約を満たすものを見つける。

実験結果

リサーチクエスチョン

RQ1単一の過剰パラメータ化されたネットワーク（OFA）を用いて、個別デプロイごとの再訓練なしに広大なアーキテクチャ空間から正確なサブネットワークを提供できるか？
RQ2進行的縮小は、共有重みを用いて多くのサブネットワークを訓練し、精度を維持するのに効果的か？
RQ3高速で予測子ガイド付きの探索は、デバイス全体でハードウェアのレイテンシと精度ターゲットを満たす専門化されたサブネットワークを特定できるか？
RQ4OFA は精度、レイテンシ、訓練コスト、環境影響の点で NAS 手法と比較してどのようか？

主な発見

モデル	ImageNet Top1 (%)	MACs	モバイルのレイテンシ	探索コスト	訓練コスト	総コスト (N=40)	CO2e (lbs)	AWS コスト
MobileNetV2 [31]	72.0	300M	66ms	0	150 N	6k	1.7k	$18.4k$
MobileNetV2 #1200	73.5	300M	66ms	0	1200 N	48k	13.6k	$146.9k$
NASNet-A	74.0	564M	-	48,000 N	-	1,920k	544.5k	$5875.2k$
DARTS	73.1	595M	-	96 N	250 N	14k	4.0k	$42.8k$
MnasNet	74.0	317M	70ms	40,000 N	-	1,600k	453.8k	$4896.0k$
FBNet-C	74.9	375M	-	216 N	360 N	23k	6.5k	$70.4k$
ProxylessNAS	74.6	320M	71ms	200 N	300 N	20k	5.7k	$61.2k$
SinglePathNAS	74.7	328M	-	288 + 24 N	384 N	17k	4.8k	$52.0k$
AutoSlim	74.2	305M	63ms	180	300 N	12k	3.4k	$36.7k$
MobileNetV3-Large	75.2	219M	58ms	-	180 N	7.2k	1.8k	$22.2k$
OFA w/o PS	72.4	235M	59ms	40	1200	1.2k	0.34k	$3.7k$
OFA w/ PS	76.0	230M	58ms	40	1200	1.2k	0.34k	$3.7k$
OFA w/ PS #25	76.4	230M	58ms	40	1200 + 25 N	2.2k	0.62k	$6.7k$
OFA w/ PS #75	76.9	230M	58ms	40	1200 + 75 N	4.2k	1.2k	$13.0k$
OFA Large w/ PS #75	80.0	595M	-	40	1200 + 75 N	4.2k	1.2k	$13.0k$

OFA は、単一の訓練済みネットワークから得られるサブネットワークで多様なハードウェアに対して強力な ImageNet Top-1 性能を達成する。
進行的縮小は、複数のアーキテクチャ設定下で、サブネットワークの独立訓練と比べて精度を著しく改善する（例：D=4, W=3, K=3 の場合、226M MACs で 74.8% vs 71.5%）。
モバイル/エッジターゲットでは、OFA は 595M MACs（モバイル設定）で 80.0% top-1、Pixel1 で 143 ms のレイテンシで 80.1% を達成し、同等の MobileNetV3 および EfficientNet 変種より精度とレイテンシの点で優れる。
OFA アプローチは従来の NAS と比較して訓練と設計コストを大幅に削減し、デプロイメントシナリオ間で一定の探索コストを実現する。
専門化された OFA モデルは、CPU、GPU、mGPU、FPGA で同程度のレイテンシに対して非専門化ネットワークを一貫して上回る。
CPU、GPU、FPGA などの多様なハードウェアでのデプロイは、ベースラインと比較して算術強度と GOPS/秒を改善し、Xilinx FPGA での roofline パフォーマンスも有利に示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。