QUICK REVIEW

[論文レビュー] Latency-Aware Differentiable Neural Architecture Search

Yuhui Xu, Lingxi Xie|arXiv (Cornell University)|Jan 17, 2020

Advanced Neural Network Applications参考文献 39被引用数 26

ひとこと要約

本稿では、推論遅延と精度の両方を同時に最適化できる、遅延に配慮した微分可能ニューラルアーキテクチャ探索（LA-DARTS）を提案する。10万個のアーキテクチャをランダムに抽出して学習したマルチレイヤー回帰モデルである学習可能な遅延予測モジュール（LPM）をDARTSフレームワークに統合し、GPUおよびCPUプラットフォーム上でのCIFAR-10およびImageNetベンチマークで、精度を維持したまま遅延を20%削減できる。

ABSTRACT

Differentiable neural architecture search methods became popular in recent years, mainly due to their low search costs and flexibility in designing the search space. However, these methods suffer the difficulty in optimizing network, so that the searched network is often unfriendly to hardware. This paper deals with this problem by adding a differentiable latency loss term into optimization, so that the search process can tradeoff between accuracy and latency with a balancing coefficient. The core of latency prediction is to encode each network architecture and feed it into a multi-layer regressor, with the training data which can be easily collected from randomly sampling a number of architectures and evaluating them on the hardware. We evaluate our approach on NVIDIA Tesla-P100 GPUs. With 100K sampled architectures (requiring a few hours), the latency prediction module arrives at a relative error of lower than 10%. Equipped with this module, the search method can reduce the latency by 20% meanwhile preserving the accuracy. Our approach also enjoys the ability of being transplanted to a wide range of hardware platforms with very few efforts, or being used to optimizing other non-differentiable factors such as power consumption.

研究の動機と目的

微分可能NAS手法が推論が遅いハードウェア非効率なモデルを生成するという限界を是正すること。
DARTSのような複雑な探索空間において、精度と遅延をエンドツーエンドで微分可能に最適化できること。
最小限の再トレーニングで異なるデバイス間で容易に移行可能な、ハードウェアに適応する遅延予測モジュール（LPM）を開発すること。
本手法が標準ベンチマーク上で精度を損なわずに顕著な遅延削減を達成できることを実証すること。

提案手法

アーキテクチャの推論遅延を予測するための微分可能遅延予測モジュール（LPM）を、マルチレイヤーニューラルネットワークとして訓練する。
LPMは、DARTS探索空間からランダムに抽出した10万個のアーキテクチャのデータセット上で学習され、ターゲットハードウェア（例：NVIDIA Tesla-P100）で測定された真値の遅延を用いる。
アーキテクチャ表現は、アーキテクチャパラメータの固定長ベクトルとして符号化され、LPMの入力として使用される。
LPMは、バランス係数λを介してDARTSの損失関数に統合され、精度と遅延の両方の最適化が可能になる。
探索プロセスは、勾配ベースの更新を用いる微分可能アーキテクチャ探索フレームワークに従い、損失関数に精度と予測遅延の両方の項が含まれる。
LPMはCPU遅延データ上で再トレーニングされることで、CPUに移植され、デバイス固有のアーキテクチャ探索が可能になる。

実験結果

リサーチクエスチョン

RQ1複雑でチェーン型でない探索空間において、微分可能な遅延予測モジュールが推論遅延を効果的に予測できるか？
RQ2微分可能な損失関数による精度と遅延の共同最適化は、精度を低下させることなくハードウェア効率を向上させられるか？
RQ3LPMはGPUやCPUのような異なるハードウェアプラットフォーム間でどれほど移行可能か？
RQ4本手法は、標準ベンチマーク上でどれほど顕著に遅延を削減できるか、同時に競争力のある精度を維持できるか？

主な発見

LPMはGPUおよびCPUの両方で相対誤差が5%未満を達成し、CPUでは8.27msの絶対誤差、相対誤差5.32%を記録した。
CIFAR-10では、元のDARTSと比較してLA-DARTSが19%の遅延削減を達成したが、同等の精度（2.57%のテスト誤差）を維持した。
ImageNetでは、LA-DARTSがトップ-1誤差率25.1%を達成し、CPU上でベースラインと比較して30%の遅延削減（114.1ms vs. 164.1ms）を実現した。
GPUで探索されたアーキテクチャはCPU上で最適でなく、GPUとCPUの遅延順位の一致率はたった69%にとどまり、ハードウェア固有の探索の必要性が浮き彫りになった。
LA-PC-DARTS-Bは、ImageNetでCPU遅延を30%削減したが、精度に低下は見られず、強力なハードウェアに配慮した最適化を示した。
GPUでは予測値と実測値のケンダール-τ相関係数が0.83、CPUでは0.75であり、アーキテクチャ探索における高い予測信頼性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。