QUICK REVIEW

[論文レビュー] ChamNet: Towards Efficient Network Design through Platform-Aware Model Adaptation

Xiaoliang Dai, Peizhao Zhang|arXiv (Cornell University)|Dec 21, 2018

Advanced Neural Network Applications参考文献 31被引用数 17

ひとこと要約

ChamNetは、高速で正確な予測器を用いて、ターゲットの遅延およびエネルギー制約において、既存の効率的なビルディングブロックを最適化する、プラットフォームに配慮したニューラルアーキテクチャ適応フレームワークを提案する。ガウス過程に基づくベイズ最適化とハードウェア固有の遅延ルックアップテーブルを活用することで、GPU週単位の探索時間ではなく数分で済むようになり、モバイルCPUおよびDSPで20msでImageNetのトップ1精度73.8%という最先端の性能を達成する。

ABSTRACT

This paper proposes an efficient neural network (NN) architecture design methodology called Chameleon that honors given resource constraints. Instead of developing new building blocks or using computationally-intensive reinforcement learning algorithms, our approach leverages existing efficient network building blocks and focuses on exploiting hardware traits and adapting computation resources to fit target latency and/or energy constraints. We formulate platform-aware NN architecture search in an optimization framework and propose a novel algorithm to search for optimal architectures aided by efficient accuracy and resource (latency and/or energy) predictors. At the core of our algorithm lies an accuracy predictor built atop Gaussian Process with Bayesian optimization for iterative sampling. With a one-time building cost for the predictors, our algorithm produces state-of-the-art model architectures on different platforms under given constraints in just minutes. Our results show that adapting computation resources to building blocks is critical to model performance. Without the addition of any bells and whistles, our models achieve significant accuracy improvements against state-of-the-art hand-crafted and automatically designed architectures. We achieve 73.8% and 75.3% top-1 accuracy on ImageNet at 20ms latency on a mobile CPU and DSP. At reduced latency, our models achieve up to 8.5% (4.8%) and 6.6% (9.3%) absolute top-1 accuracy improvements compared to MobileNetV2 and MnasNet, respectively, on a mobile CPU (DSP), and 2.7% (4.6%) and 5.6% (2.6%) accuracy gains over ResNet-101 and ResNet-152, respectively, on an Nvidia GPU (Intel CPU).

研究の動機と目的

さまざまなリソース制約を持つ多様なハードウェアプラットフォームにわたる効率的なニューラルネットワークのデプロイという課題に対処すること。
高価なトレーニングと測定を予測モデリングに置き換えることで、ニューラルアーキテクチャサーチの時間的・計算的コストを低減すること。
遅延やエネルギー消費を増加させずに、知的な計算リソース配分によりモデルの精度を向上させること。
複数のプラットフォームおよび制約にわたる探索コストを最小限に抑えることで、異種デバイスにわたるコンパクトモデルのスケーラブルかつ大規模なデプロイを可能にすること。

提案手法

精度およびリソース（遅延／エネルギー）予測器を用いて、プラットフォームに配慮したニューラルアーキテクチャサーチを最適化問題として定式化する。
ガウス過程に基づくベイズ最適化フレームワークを採用し、最小限の評価コストで高精度なアーキテクチャを段階的にサンプリングする。
特定のハードウェアプラットフォームに特化した高速かつ正確な遅延推定のため、オペレータ遅延ルックアップテーブル（LUT）を活用する。
精度およびリソース予測器の効率性とロバスト性を向上させるために、不均衡な準モンテカルロサンプリングを導入する。
ハードウェア特性および特徴マップサイズに基づいて、ネットワークステージ間でのFLOPsの再配分により、計算リソースの分布を最適化する。
一度だけトレーニングされた予測器（精度、遅延、エネルギー）を構築し、複数のプラットフォームおよび制約にわたる探索コストを均等化することで、合計コストをO(m·n·k)からO(m+n)に削減する。

実験結果

リサーチクエスチョン

RQ1強化学習や新しいビルディングブロックを用いずに、リソース制約のあるプラットフォームで最先端の精度を達成できるか？
RQ2プラットフォームに配慮した計算リソースの再配分は、異なるハードウェア上でモデルの精度と効率にどのように影響を与えるか？
RQ3予測モデルは、高精度を維持しつつ、ニューラルアーキテクチャサーチの時間的・コスト的負担を顕著に削減できるか？
RQ4ネットワークステージにわたるFLOPsの配分は、モバイルCPUおよびDSPでの推論速度と精度にどのような影響を与えるか？
RQ5本手法は、既存のNASおよび圧縮技術と比較して、精度、遅延、探索効率の観点でどのように差をつけるか？

主な発見

モバイルCPU上で20msの遅延で推論する際、ChamNetはImageNetで73.8%のトップ1精度を達成し、MobileNetV2およびMnasNetをそれぞれ8.5%および6.6%の絶対的精度で上回る。
モバイルDSP上で20msの遅延で推論する際、ChamNetは75.3%のトップ1精度を達成し、ResNet-152およびMnasNetをそれぞれ9.3%および4.8%の絶対的精度で上回る。
一度だけトレーニングされた予測器を用いることで、探索時間を数分にまで短縮し、MnasNetが要する数百時間のGPU時間から解放される。
ChamNetは、FLOPsを初期ステージから後続ステージへ再配分することで、CPUの利用効率を向上させ、同程度の遅延でMobileNetV2よりも2.1%高い精度と5%低い遅延を達成する。
Samsung Galaxy S8のSnapdragon 835 CPU上で20msの遅延制約下で、MnasNetと比較して1.7%高い精度と1.75倍の高速化を達成する。
フレームワークにより、合計探索コストがO(m·n·k)からO(m+n)に削減され、大規模かつ異種のデプロイに非常にスケーラブルである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。