Skip to main content
QUICK REVIEW

[論文レビュー] Edge Intelligence: On-Demand Deep Learning Model Co-Inference with Device-Edge Synergy

En Li, Zhi Zhou|arXiv (Cornell University)|Jun 20, 2018
Age of Information Optimization参考文献 9被引用数 52
ひとこと要約

Edgent は、モバイル機器とエッジサーバ間で DNN の分割を共同で最適化し、early-exits を用いた DNN のリサイズを組み合わせて、遅延期限を満たしつつ精度を最大化する共推論フレームワークを提案します。

ABSTRACT

As the backbone technology of machine learning, deep neural networks (DNNs) have have quickly ascended to the spotlight. Running DNNs on resource-constrained mobile devices is, however, by no means trivial, since it incurs high performance and energy overhead. While offloading DNNs to the cloud for execution suffers unpredictable performance, due to the uncontrolled long wide-area network latency. To address these challenges, in this paper, we propose Edgent, a collaborative and on-demand DNN co-inference framework with device-edge synergy. Edgent pursues two design knobs: (1) DNN partitioning that adaptively partitions DNN computation between device and edge, in order to leverage hybrid computation resources in proximity for real-time DNN inference. (2) DNN right-sizing that accelerates DNN inference through early-exit at a proper intermediate DNN layer to further reduce the computation latency. The prototype implementation and extensive evaluations based on Raspberry Pi demonstrate Edgent's effectiveness in enabling on-demand low-latency edge intelligence.

研究の動機と目的

  • デバイスとネットワークの制約がある状況でも、モバイルアプリケーション向けの低遅延 DNN 推論を動機付ける。
  • デバイスとエッジのシナジーを活用して DNN 実行を行う共推論フレームワークを提案する。
  • 事前に定義された遅延の期限を満たすための適応的 DNN 分割と early-exit のリサイズを導入する。
  • レイヤーごとの遅延を予測し、分割点と退出点を最適化するオフライン–オンラインワークフローを提供する。
  • Raspberry Pi ベースのプロトタイプと実証評価で実現性を示す。

提案手法

  • Partitioning: 帯域幅制約の下で遅延を最小化するため、DNN 計算をデバイスとエッジ間で適応的に分割する。
  • Right-sizing: DNN における早期退出を有効にして計算量を削減し、遅延と精度のトレードオフを可能にする。
  • Offline profiling: デバイスとエッジでのレイヤーごとの遅延を予測する回帰ベースのモデルを構築し、複数の退出を持つブランチモデルを訓練する。
  • Online optimization: 帯域幅と遅延の入力を用いて、遅延期限を満たすように退出点と分割点を共同最適化し、精度を最大化する。
  • Co-inference: 選択された計画に従い、事前に分割された層をエッジで実行し、残りの層をデバイスで実行する。

実験結果

リサーチクエスチョン

  • RQ1帯域幅が変動する中で、デバイスとエッジ間の DNN 分割はエンドツーエンドの遅延をどのように削減できるか?
  • RQ2早期退出による DNN のリサイズは、遅延を改善しつつ期限内の精度を維持できるか?
  • RQ3与えられた遅延制約の下で、精度を最大化する最適な分割点と退出点の組み合わせは何か?
  • RQ4異なるレイヤ型に対して、オンライン最適化を導く回帰ベースの遅延予測がどれだけ有効か?
  • RQ5提案されたオフライン–オンライン Edgent ワークフローは、リアルタイムのエッジ・インテリジェンスを実現するために市販ハードウェア上で実現可能か?

主な発見

  • デバイスのみ実行またはエッジのみ実行と比較して、分割点と退出点を共同最適化することで遅延を低減できる。
  • 回帰ベースのレイヤーごとの遅延モデルは高速なオンライン最適化を可能にし(実験で ≤1 ms)。
  • 帯域幅が高いと、より高精度の退出モデルを選択でき、遅延制約内でエンドツーエンドの精度を向上させる。
  • 最適な退出点は、一般に帯域幅が増加するか遅延要件が緩むとともに増加する。
  • プロトタイプ実験は、Edgent が厳格な遅延目標を満たし、帯域幅の変動下でベースライン手法を上回ることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。