QUICK REVIEW

[论文解读] Accuracy is not the only Metric that matters: Estimating the Energy Consumption of Deep Learning Models

Johannes Getzner, Bertrand Charpentier|arXiv (Cornell University)|Apr 3, 2023

Green IT and Sustainability被引用 7

一句话总结

本论文提出一个能估算DL模型能耗的管线，通过对每一层类型训练的预测器，将逐层能耗相加，从而在不运行模型的情况下进行预训练能耗预算。研究分析了特征集合，发现MAC计数作为关键预测变量，但对真实架构的泛化能力存在差异。

ABSTRACT

Modern machine learning models have started to consume incredible amounts of energy, thus incurring large carbon footprints (Strubell et al., 2019). To address this issue, we have created an energy estimation pipeline1, which allows practitioners to estimate the energy needs of their models in advance, without actually running or training them. We accomplished this, by collecting high-quality energy data and building a first baseline model, capable of predicting the energy consumption of DL models by accumulating their estimated layer-wise energies.

研究动机与目标

在DL模型中需要在准确性和其他性能指标之外考虑能耗的动机。
提供一个模块化的数据收集过程，用于衡量CPU能耗并为层类型构建预测器。
开发一个简单的基线，通过对每层的能耗预测进行求和来估计模型能耗。
评估不同特征集的预测能力以及MAC计数在能耗估计中的作用。
评估对真实架构的泛化能力，并讨论该方法的局限性。

提出的方法

使用codecarbon在CPU硬件上为DL层类型和架构收集高质量能量数据。
为每种层类型构建一个独立的能量预测器，采用线性/多项式回归，特征集包括标准参数、对数变换参数和MAC计数。
对能量目标应用MinMaxScaler，必要时对特征应用StandardScaler；将MAC作为关键特征。
对单层能量进行估计并对预测值求和以得到总架构能量；与真实模型级测量进行比较。
通过特征集变体（包含MAC、对数特征和多项式等）来确定Conv2d、MaxPool2d、Linear和激活层的预测能力。
进行消融分析以识别MAC及其他特征对模型性能的影响。

实验结果

研究问题

RQ1每层能量预测器能否准确估计单个DL层类型的能耗？
RQ2将MAC计数作为特征如何影响不同层类型的能耗预测精度？
RQ3将逐层能量预测相加是否能提供对整模型能量的准确估计（与直接测量的模型级数据相比）？
RQ4不同特征集（标准参数、对数参数、MAC及其组合）如何影响Conv2d、MaxPool2d、Linear和激活层的预测性能？
RQ5在随机配置上训练的预测器在真实架构（如AlexNet和VGG变体）上的泛化程度如何？

主要发现

Module	Avg. R^2 Cross-Val	Avg. MSE Cross-Val	R^2 Test Set	MSE Test-Set
Conv2d	0.994 (± 0.005)	-2.291e-05 (± 1.329e-05)	0.9977	2.779e-05
MaxPool2d	0.999 (± 0.000)	-2.552e-06 (± 4.612e-06)	0.9995	7.736e-07
Linear	0.999 (± 0.000)	-4.284e-05 (± 1.425e-05)	0.9992	3.384e-05
ReLU	0.981 (± 0.005)	-1.046e-03 (± 2.284e-04)	0.9812	8.998e-04
Sigmoid	0.981 (± 0.008)	-1.047e-03 (± 1.866e-04)	0.9905	7.538e-04
Tanh	0.976 (± 0.008)	-1.315e-03 (± 4.252e-04)	0.9761	1.412e-03
Softmax	0.989 (± 0.004)	-5.671e-04 (± 1.599e-04)	0.9913	4.972e-04

大多数层的层类型预测器在测试集上获得较高的R^2分数（Conv2d: 0.9977, MaxPool2d: 0.9992, Linear: 0.9992, ReLU: 0.9812, Sigmoid: 0.9905, Tanh: 0.9761, Softmax: 0.9913）。
MAC计数是关键预测器，即使单独使用，对于某些层也能接近最优预测（Conv2d: 0.9977; MaxPool2d: 0.9995; Linear: 0.9992）。
对架构的逐层能量求和在真实配置下给出模型级能量，整体R^2为0.352，表明存在泛化挑战。
用真实架构的层配置丰富训练数据后，Conv2d的R^2从0.314提高到0.395，MaxPool2d从0.559提高到0.679。
特征消融显示MAC计数显著提升预测性能；若无MAC，Conv2d的R^2降至0.25；包含MAC时可达到约0.998。
能量预测的准确性因层类型而异，激活层对总能量贡献较小，而线性/卷积层贡献最大。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。