Skip to main content
QUICK REVIEW

[论文解读] Enabling Deep Learning on Edge Devices

Zhongnan Qu|arXiv (Cornell University)|Jan 1, 2022
IoT and Edge/Fog Computing被引用 3
一句话总结

本论文提出了四种新颖的方法,通过减少模型冗余,实现资源受限边缘设备上的高效深度学习。它提出了自适应损失感知量化(ALQ)以实现低比特推理,动态实时稀疏子网络(DRESS)以实现实时运行时自适应,p-Meta以实现内存高效的设备内元学习,以及深度部分更新(DPU)以实现在边缘-服务器系统中的通信高效模型更新——在多种边缘场景下实现了最先进的准确率,同时资源消耗极低。

ABSTRACT

Deep neural networks (DNNs) have succeeded in many different perception tasks, e.g., computer vision, natural language processing, reinforcement learning, etc. The high-performed DNNs heavily rely on intensive resource consumption. For example, training a DNN requires high dynamic memory, a large-scale dataset, and a large number of computations (a long training time); even inference with a DNN also demands a large amount of static storage, computations (a long inference time), and energy. Therefore, state-of-the-art DNNs are often deployed on a cloud server with a large number of super-computers, a high-bandwidth communication bus, a shared storage infrastructure, and a high power supplement. Recently, some new emerging intelligent applications, e.g., AR/VR, mobile assistants, Internet of Things, require us to deploy DNNs on resource-constrained edge devices. Compare to a cloud server, edge devices often have a rather small amount of resources. To deploy DNNs on edge devices, we need to reduce the size of DNNs, i.e., we target a better trade-off between resource consumption and model accuracy. In this dissertation, we studied four edge intelligence scenarios, i.e., Inference on Edge Devices, Adaptation on Edge Devices, Learning on Edge Devices, and Edge-Server Systems, and developed different methodologies to enable deep learning in each scenario. Since current DNNs are often over-parameterized, our goal is to find and reduce the redundancy of the DNNs in each scenario.

研究动机与目标

  • 解决在内存、计算和能源受限的边缘设备上部署高准确率深度神经网络(DNNs)的挑战。
  • 在四种不同的边缘场景下减少过度参数化DNN中的冗余:推理、运行时自适应、设备内学习和边缘-服务器系统。
  • 通过实现高效的量化、稀疏性、元学习和部分模型更新,实现模型准确率与资源消耗之间的更好权衡。
  • 通过实现设备内和边缘-服务器感知的优化技术,消除对基于云的推理和再训练的依赖。
  • 在保持模型性能的同时,最小化分布式边缘系统中的通信和存储开销。

提出的方法

  • 提出自适应损失感知量化(ALQ),通过直接损失优化和自适应位宽分配,实现比先前二值网络更高的准确率的子1比特DNN。
  • 引入动态实时稀疏子网络(DRESS),一种运行时合成方法,通过在具有不同稀疏度的子网络之间共享权重和架构,实现在资源约束动态变化时的动态重构。
  • 开发p-Meta,一种元学习框架,仅识别并更新结构上关键的适应性权重,从而在设备内少样本学习过程中减少内存开销。
  • 引入深度部分更新(DPU),一种流水线机制,仅选择并更新预训练模型中的关键权重,从而在保持准确率的同时最小化通信成本。
  • 利用稀疏张量计算,在边缘设备上高效执行具有不同稀疏度的子网络,支持根据运行时资源可用性实现动态自适应。
  • 在DRESS中利用权重共享和架构共享,以减少存储和重构开销,提升动态边缘环境下的效率。

实验结果

研究问题

  • RQ1如何在保持量化冗余最小化的同时,实现在边缘设备上子1比特精度的高准确率DNN推理?
  • RQ2当运行时资源约束(如RAM、执行时间)动态变化时,如何实现在边缘设备上DNN的实时自适应?
  • RQ3如何在仅使用少量样本的情况下,实现对未见过任务的内存高效的设备内元学习,从而减少模型更新的内存占用?
  • RQ4在迭代模型更新过程中,如何在保持模型准确率的同时减少边缘-服务器系统中的通信成本?
  • RQ5在预训练DNN中,选择并仅更新关键权重的最优策略是什么,以在不牺牲性能的前提下最小化通信开销?

主要发现

  • ALQ在平均位宽低于1比特的情况下,实现了比现有最先进二值网络更高的准确率,证明了直接损失优化和自适应位宽分配的有效性。
  • 由于权重和架构共享,DRESS在存储开销上最多降低30%,重构速度提升25%,相比非共享方法,实现了动态子网络执行的高效性。
  • p-Meta通过仅聚焦于结构上关键的权重进行更新,显著降低了设备内元学习期间的内存消耗,实现了内存占用极小的高效少样本适应。
  • DPU在保持准确率与全量微调相当的同时,通过在边缘-服务器系统中选择性地进行逐权重部分更新,将通信成本降低了高达80%。
  • 将稀疏张量计算与DRESS结合,实现了对具有不同稀疏度水平的子网络的高效推理,支持在动态资源约束下实现实时自适应。
  • 所提出的方法共同实现了在多样化边缘场景下高准确率、低资源消耗的深度学习,其在准确率、效率和通信成本方面均优于现有方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。