[论文解读] E2-Train: Training State-of-the-art CNNs with Over 80% Less Energy
E2-Train 提出了一种新颖的框架,通过三种互补策略将 CNN 训练能耗降低高达 90%:随机小批量丢弃、选择性层更新和基于符号的低精度反向传播。在 CIFAR-10 上训练 ResNet-74 时,该方法实现了超过 90% 的能耗节省,同时仅导致 2% 的 top-1 准确率下降。
Convolutional neural networks (CNNs) have been increasingly deployed to edge devices. Hence, many efforts have been made towards efficient CNN inference on resource-constrained platforms. This paper attempts to explore an orthogonal direction: how to conduct more energy-efficient training of CNNs, so as to enable on-device training? We strive to reduce the energy cost during training, by dropping unnecessary computations, from three complementary levels: stochastic mini-batch dropping on the data level; selective layer update on the model level; and sign prediction for low-cost, low-precision back-propagation, on the algorithm level. Extensive simulations and ablation studies, with real energy measurements from an FPGA board, confirm the superiority of our proposed strategies and demonstrate remarkable energy savings for training. For example, when training ResNet-74 on CIFAR-10, we achieve aggressive energy savings of >90% and >60%, while incurring a top-1 accuracy loss of only about 2% and 1.2%, respectively. When training ResNet-110 on CIFAR-100, an over 84% training energy saving is achieved without degrading inference accuracy.
研究动机与目标
- 解决在边缘设备上训练 CNN 所带来的高能耗问题,该问题限制了设备端的模型自适应能力。
- 将 CNN 训练的能效作为与推理优化正交的挑战进行探索。
- 提出一种整体性方法,从数据、模型和算法三个层面降低能耗。
- 通过大幅降低训练能耗而不牺牲模型准确率,实现实用的设备端训练。
提出的方法
- 通过随机小批量丢弃实现,即在选定的批量上跳过不必要的前向和反向传播。
- 通过选择性层更新实现,即在反向传播过程中识别并跳过对关键性较低的层的更新。
- 使用符号预测来用二值值近似梯度,从而实现低精度、低能耗的反向传播。
- 将三种策略整合到统一框架中,以在训练各阶段最大化能耗节省。
- 通过在 FPGA 平台上进行真实能耗测量来验证该方法,确保其实际能效表现。
- 通过自适应阈值和动态调度优化能耗节省与模型准确率之间的权衡。
实验结果
研究问题
- RQ1在不降低模型准确率的前提下,CNN 训练中的能耗最多可降低多少?
- RQ2随机小批量丢弃在降低训练期间计算负载方面有多高效?
- RQ3选择性层更新是否能在最小化能耗的同时保持模型性能?
- RQ4基于符号的梯度近似对训练收敛性和准确率有何影响?
- RQ5多层级能耗降低策略的组合影响对整体训练效率有何贡献?
主要发现
- 在 CIFAR-10 上训练 ResNet-74 时,E2-Train 实现了超过 90% 的能耗节省,同时仅造成 2% 的 top-1 准确率下降。
- 在 CIFAR-100 上训练 ResNet-110 时,该方法实现了超过 84% 的能耗降低,同时保持了原始推理准确率。
- 在 CIFAR-10 上仅造成 1.2% 的 top-1 准确率损失,即可实现 60% 的能耗降低,表明其具有极强的能效-准确率权衡能力。
- 在 FPGA 板卡上的真实能耗测量结果证实了所提能耗节省策略的实际可行性和可扩展性。
- 数据级、模型级和算法级优化的结合产生了协同效应,使整体能耗节省超过各组件单独作用之和。
- 用于低精度反向传播的符号预测显著降低了内存和计算能耗,且未影响收敛性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。