[论文解读] Edge AI: On-Demand Accelerating Deep Neural Network Inference via Edge Computing
Edgent 提出将 DNN 分区与容量调整结合,以通过适应静态或动态网络条件实现按需、低延迟的边缘推理。基于 Raspberry Pi 的原型证明在对 device 端或云端单独方法的对比中响应性更优。
As a key technology of enabling Artificial Intelligence (AI) applications in 5G era, Deep Neural Networks (DNNs) have quickly attracted widespread attention. However, it is challenging to run computation-intensive DNN-based tasks on mobile devices due to the limited computation resources. What's worse, traditional cloud-assisted DNN inference is heavily hindered by the significant wide-area network latency, leading to poor real-time performance as well as low quality of user experience. To address these challenges, in this paper, we propose Edgent, a framework that leverages edge computing for DNN collaborative inference through device-edge synergy. Edgent exploits two design knobs: (1) DNN partitioning that adaptively partitions computation between device and edge for purpose of coordinating the powerful cloud resource and the proximal edge resource for real-time DNN inference; (2) DNN right-sizing that further reduces computing latency via early exiting inference at an appropriate intermediate DNN layer. In addition, considering the potential network fluctuation in real-world deployment, Edgentis properly design to specialize for both static and dynamic network environment. Specifically, in a static environment where the bandwidth changes slowly, Edgent derives the best configurations with the assist of regression-based prediction models, while in a dynamic environment where the bandwidth varies dramatically, Edgent generates the best execution plan through the online change point detection algorithm that maps the current bandwidth state to the optimal configuration. We implement Edgent prototype based on the Raspberry Pi and the desktop PC and the extensive experimental evaluations demonstrate Edgent's effectiveness in enabling on-demand low-latency edge intelligence.
研究动机与目标
- 在移动/边缘场景中,由于设备计算能力有限以及到云数据中心的 WAN 延迟较高,需低时延的 DNN 推理的动机。
- 提出 Edgent,这是一个框架,通过早期退出来联合优化 DNN 分区和 DNN 的容量调整,以满足时延约束。
- 结合专门的配置器与运行时优化策略,针对静态与动态网络环境进行处理。
- 提供一个原型实现和经验评估,展示在降低推理时延方面的有效性。
提出的方法
- 引入 DNN 分区,根据可用带宽在设备和边缘服务器之间划分计算。
- 通过早退分支引入 DNN 的容量调整,以在降低总时延的同时权衡准确性。
- 开发两阶段配置器:离线配置(基于回归的时延预测与分支化 DNN 训练)和在线调优(搜索最优分区/退出点)。
- 对于静态网络,训练逐层时延预测器并对分区/退出点进行穷举搜索,在时延约束下最大化准确性。
- 对于动态网络,利用基于奖励的搜索从带宽状态构建配置映射,并应用变点检测实现实时自适应。
实验结果
研究问题
- RQ1在设备-边缘协作下,如何在满足预定义时延的同时最大化 DNN 推理准确性?
- RQ2如何针对静态与动态网络环境定制 DNN 分区和容量调整?
- RQ3离线分析与在线优化能否在带宽变化的情况下实现按需、低时延的边缘智能?
- RQ4带宽对边缘基于 DNN 推理的最优分区与退出决策有何影响?
主要发现
- 在带宽变化的场景下,边缘端单独或设备端单独的方法不足以实现实时 DNN 推理。
- 在 Edgent 的框架下,随着带宽提升,最优的退出点和分区点会向更多边缘计算偏移。
- 静态带宽实验表明,回归模型的时延预测与实际测量时延高度吻合。
- 动态带宽实验在 428 个带宽状态上构建配置映射,以通过变点检测实现快速在线自适应。
- 为退出点进行调优的 Branchy AlexNet 在带宽允许更深执行时达到更高的准确性,相较于在更紧时延下的早期退出。
- Edgent 通过 Raspberry Pi 与桌面 PC 原型实现按需低时延的边缘智能。
- 边缘端 DNN 时延仍对带宽下降敏感,这促使需要边缘协作与容量调整。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。