[论文解读] Measuring the Energy Consumption and Efficiency of Deep Neural Networks: An Empirical Analysis and Design Recommendations
本文通过在节点级瓦特表上对密集全连接网络的训练能耗进行实证测量,引入 BUTTER-E 数据集,分析缓存/内存效应,并提出用于能效神经网络的能耗模型与设计建议。
Addressing the so-called ``Red-AI'' trend of rising energy consumption by large-scale neural networks, this study investigates the actual energy consumption, as measured by node-level watt-meters, of training various fully connected neural network architectures. We introduce the BUTTER-E dataset, an augmentation to the BUTTER Empirical Deep Learning dataset, containing energy consumption and performance data from 63,527 individual experimental runs spanning 30,582 distinct configurations: 13 datasets, 20 sizes (number of trainable parameters), 8 network ``shapes'', and 14 depths on both CPU and GPU hardware collected using node-level watt-meters. This dataset reveals the complex relationship between dataset size, network structure, and energy use, and highlights the impact of cache effects. We propose a straightforward and effective energy model that accounts for network size, computing, and memory hierarchy. Our analysis also uncovers a surprising, hardware-mediated non-linear relationship between energy efficiency and network design, challenging the assumption that reducing the number of parameters or FLOPs is the best way to achieve greater energy efficiency. Highlighting the need for cache-considerate algorithm development, we suggest a combined approach to energy efficient network, algorithm, and hardware design. This work contributes to the fields of sustainable computing and Green AI, offering practical guidance for creating more energy-efficient neural networks and promoting sustainable AI.
研究动机与目标
- 在“Red AI”趋势下,动员对训练神经网络能耗的紧迫理解需求。
- 介绍并发布 BUTTER-E 数据集,捕捉多种配置下的真实能耗与性能。
- 描述超参数、网络拓扑和硬件如何交互影响能耗。
- 开发一个简简单单的能耗模型,考虑网络规模、计算和内存层次结构,并讨论对能效设计的影响。
- 为推进 Green AI 提供面向能效的体系结构、算法和硬件的指导。
提出的方法
- 在高性能计算系统上使用节点级瓦特计编译能耗测量(CPU 和 GPU 运行)。
- 创建并扩展 BUTTER-E 数据集,涵盖63,527次运行,跨30,582种配置(13个数据集、20个参数规模、8种形状、14层深度)。
- 通过去除空闲功率差异和开销,使异构节点间的能耗测量标准化。
- 筛选并对原始功率数据进行质量控制,将功率轨迹与调度器数据对齐,以获得准确的运行级能耗和时间统计。
- 通过工作集定义和内存层次结构考量分析聚合趋势与缓存相关效应。
- 拟合一个硬件感知的能耗模型,将超参数、工作集大小和缓存边界与观测能耗联系起来。

实验结果
研究问题
- RQ1数据集规模、网络拓扑和深度如何影响每个训练数据和每个时期的能耗?
- RQ2硬件因素(CPU 与 GPU、缓存大小)在多大程度上调节神经网络训练的能效?
- RQ3在考虑内存层次结构和缓存效应时,能耗、FLOPs 与参数量之间存在哪些非线性关系?
- RQ4一个简单的能耗模型能否捕捉到不同配置下全连接网络能耗的关键驱动因素?
- RQ5在能效网络、算法和硬件方面有哪些设计建议?
主要发现
- 每个训练数据的能耗与参数量和 FLOPs 均呈非线性增长,缓存和内存层次结构起着关键作用。
- 基于 GPU 的训练在达到一定参数量后才会以每个数据更高的能耗呈现;CPU 显示出不同的非线性模式,可能由于缓存和每时期开销所致。
- 深度与每个数据的能耗相关;较浅的网络在较小深度时显示 GPU 可能更具能效,而深度增加时 GPU 更高效。
- 在大约 2^20 参数时(接近 GPU L2 缓存容量),每数据能耗的行为转向更线性,反映缓存效应。
- 一个以经验为基础的能耗模型,考虑网络拓扑、缓存交互和工作集大小,能拟合观测数据并突出缓存感知的算法/硬件设计的重要性。
- 研究为应对 Red AI 趋势提供了面向能效的架构、算法和硬件的可操作见解。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。