QUICK REVIEW

[論文レビュー] ALERT: Accurate Anytime Learning for Energy and Timeliness

Chengcheng Wan, Muhammad Husni Santriaji|arXiv (Cornell University)|Oct 31, 2019

Advanced Neural Network Applications被引用数 3

ひとこと要約

ALERTは、環境の変動性を検出する確率的モデルを用いて、アプリケーションレベルのDNN選択とシステムレベルのリソース構成を連携して最適化することで、DNN推論をランタイムで最適化するスケジューラである。非連携な適応と比較して、エネルギー消費を13%以上削減し、誤差を27%削減するが、完全な最適知識を持つオラクルと比較してエネルギー消費は3%多く、誤差は2%高いにとどまる。

ABSTRACT

An increasing number of software applications incorporate runtime Deep Neural Networks (DNNs) to process sensor data and return inference results to humans. Effective deployment of DNNs in these interactive scenarios requires meeting latency and accuracy constraints while minimizing energy, a problem exacerbated by common system dynamics. Prior approaches handle dynamics through either (1) system-oblivious DNN adaptation, which adjusts DNN latency/accuracy tradeoffs, or (2) application-oblivious system adaptation, which adjusts resources to change latency/energy tradeoffs. In contrast, this paper improves on the state-of-the-art by coordinating application- and system-level adaptation. ALERT, our runtime scheduler, uses a probabilistic model to detect environmental volatility and then simultaneously select both a DNN and a system resource configuration to meet latency, accuracy, and energy constraints. We evaluate ALERT on CPU and GPU platforms for image and speech tasks in dynamic environments. ALERT's holistic approach achieves more than 13% energy reduction, and 27% error reduction over prior approaches that adapt solely at the application or system level. Furthermore, ALERT incurs only 3% more energy consumption and 2% higher DNN-inference error than an oracle scheme with perfect application and system knowledge.

研究の動機と目的

動的システム状態下で、厳格な遅延、精度、エネルギー制約を満たすインタラクティブなDNNアプリケーションの課題に対処すること。
アプリケーションレベルのみ、またはシステムレベルでのみ適応を行う従来の手法の限界を克服し、効果的にトレードオフを調整できないこと。
複数の制約要件を満たすために、DNNモデルとシステムリソース構成を同時に選択する包括的なランタイムスケジューラを設計すること。

提案手法

ALERTは、環境の変動性を検出するための確率的モデルを採用し、変化するワークロードに先んじた適応を可能にする。
遅延、精度、エネルギー制約を同時に満たすように、DNNモデルとシステムリソース構成を共同で選択する。
ランタイムフィードバックを活用して、確率的モデルを改善し、時間とともに適応意思決定の質を高める。
ALERTはリアルタイムで動作し、現在のシステムおよび環境状態に基づいて推論構成を動的に調整することで、いつでも学習が可能である。
アプリケーションレベルのDNN適応とシステムレベルのリソース管理を統合し、分離最適化による劣悪なトレードオフを回避する。

実験結果

リサーチクエスチョン

RQ1アプリケーションレベルとシステムレベルの適応を連携させることで、単独での最適化に比べ、動的DNN推論ワークロードにおいて優れた性能を達成できるか？
RQ2確率的モデルが環境の変動性を効果的に検出し、リアルタイムでのDNNおよびシステム構成意思決定を支援できるか？
RQ3完全な最適なDNNおよびリソース選択の知識を持つオラクルと比較して、ALERTの性能ギャップはどの程度か？
RQ4リアルワールドのCPUおよびGPU環境での実装において、ALERTは顕著にエネルギー消費を削減しながら、なぜ低い推論誤差を維持できるか？

主な発見

ALERTは、アプリケーションまたはシステムレベルでのみ適応を行う従来手法と比較して、エネルギー消費を13%以上削減する。
ALERTは、非連携な適応戦略と比較して、DNN推論誤差を27%削減する。
ALERTは、最適構成の知識を持つオラクルと比較して、エネルギー消費はわずかに3%高いにとどまる。
推論誤差の観点から、ALERTはオラクルよりも2%高い精度を達成しており、ほぼ最適な性能を示している。
ALERTは、CPUおよびGPUプラットフォームにおける画像処理および音声処理を含む多様なワークロードで一貫した改善を示す。
DNNとシステム適応の包括的連携により、動的条件下での優れたトレードオフ管理が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。