Skip to main content
QUICK REVIEW

[论文解读] Carbontracker: Tracking and Predicting the Carbon Footprint of Training Deep Learning Models

Lasse F. Wolff Anthony, Benjamin Kanding|arXiv (Cornell University)|Jul 6, 2020
Advanced Neural Network Applications参考文献 22被引用 114
一句话总结

Carbontracker 是一个开源的 Python 工具,在深度学习模型训练过程中跟踪并预测能源使用和 CO2 排放,从而采取主动措施减少碳足迹。

ABSTRACT

Deep learning (DL) can achieve impressive results across a wide variety of tasks, but this often comes at the cost of training models for extensive periods on specialized hardware accelerators. This energy-intensive workload has seen immense growth in recent years. Machine learning (ML) may become a significant contributor to climate change if this exponential trend continues. If practitioners are aware of their energy and carbon footprint, then they may actively take steps to reduce it whenever possible. In this work, we present Carbontracker, a tool for tracking and predicting the energy and carbon footprint of training DL models. We propose that energy and carbon footprint of model development and training is reported alongside performance metrics using tools like Carbontracker. We hope this will promote responsible computing in ML and encourage research into energy-efficient deep neural networks.

研究动机与目标

  • 推动在 ML 研究中将能源与碳足迹与性能指标一同报告。
  • 开发一个基于 Python、易于集成的工具来监控功耗并预测 DL 训练过程中的排放。
  • 在预测环境成本较高时,启用主动决策(如提前停止)。
  • 在最小化训练中断的前提下,支持多种环境(集群、桌面、Colab)。

提出的方法

  • Carbontracker 是一个多线程的 Python 工具,使用 NVML 和 Intel RAPL 接口监控 GPU、CPU 和 DRAM 的功耗。
  • 它使用一个简单的线性模型,在用户指定的若干 epoch 内预测总时长、能源和碳足迹。
  • 通过 API 获取实时或预测的碳强度,将能源使用转化为 CO2eq 排放。
  • 基于 PUE 的缩放用于估算包含数据中心开销在内的总能耗。
  • 实现包括日志记录、模块化解析器,以及训练脚本中的即插即用设置。

实验结果

研究问题

  • RQ1在监控子集 epoch 后,carbontracker 对能源、碳足迹和训练时长的预测有多准确?
  • RQ2区域碳强度如何影响预测排放,预测如何指导训练时机或地点?
  • RQ3在 DL 模型训练期间,GPU、CPU 和 DRAM 对总能耗的相对贡献是多少?
  • RQ4carbontracker 是否能促成干预措施(如提前停止),在不牺牲模型性能的前提下显著降低排放?

主要发现

  • 在一个 epoch 之后,不同配置下能源预测误差为 4.9% 到 19.1%。
  • 在一个 epoch 之后,不同配置下 CO2eq 的预测误差为 7.3% 到 19.9%。
  • 在一个 epoch 之后,不同配置下训练时长的预测误差为 0.8% 到 4.6%。
  • GPU 约占总能源的 50–60%,CPU 和 DRAM 也贡献了相当的份额。
  • 在 TITAN RTX(12 GB)上使用指定的 CNN 和医疗数据集进行模型训练,在其实验中全跑估计为 37.445 kWh 和 3.166 kg CO2eq。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。