[论文解读] Counting Carbon: A Survey of Factors Influencing the Emissions of Machine Learning
本论文调查了95个模型的ML训练碳排放,分析能源来源、排放及其随时间的演变,以及与性能的关系,并提出集中报告的建议。
Machine learning (ML) requires using energy to carry out computations during the model training process. The generation of this energy comes with an environmental cost in terms of greenhouse gas emissions, depending on quantity used and the energy source. Existing research on the environmental impacts of ML has been limited to analyses covering a small number of models and does not adequately represent the diversity of ML models and tasks. In the current study, we present a survey of the carbon emissions of 95 ML models across time and different tasks in natural language processing and computer vision. We analyze them in terms of the energy sources used, the amount of CO2 emissions produced, how these emissions evolve across time and how they relate to model performance. We conclude with a discussion regarding the carbon footprint of our field and propose the creation of a centralized repository for reporting and tracking these emissions.
研究动机与目标
- 在不同任务和时间段中量化与 ML 模型训练相关的碳排放。
- 识别驱动排放的主要因素(能源来源、训练时间、硬件)并量化它们的影响。
- 检查排放随时间和任务的演变。
- 探讨能源/CO2 使用与模型性能之间的关系,以评估效率提升。
提出的方法
- 利用 Thompson 等人(2020)关于机器学习计算需求的数据集并抽样 500 篇论文,从 77 篇论文中获得了 95 个训练模型(回应率 15.4%)。
- 使用 C = P × T × I = E × I 估算 CO2eq 排放,其中 P 是硬件功率(通过 TDP),T 是以 GPU 小时计的训练时间,I 是来自公开来源的电网碳强度。
- 按训练地点估算碳强度,使用年度电网数据;通过公司报告考虑内部公司基础设施;对于云平台,使用提供商数据。
- 将训练时间计算为总硬件小时数(例如 16 个 GPU 24 小时 = 384 GPU 小时)。
- 以对数缩放的能量与排放呈现结果;分析主要能源来源(煤、天然气、水电、石油、核能)及其对应的碳强度;检查能源、排放与性能之间的关系。

实验结果
研究问题
- RQ1训练 ML 模型时的主要能源来源是什么?
- RQ2训练 ML 模型产生的 CO2 排放量级大致是多少?
- RQ3训练 ML 模型产生的 CO2 排放随时间如何演变?
- RQ4更多的能量和 CO2 是否会带来更好的模型性能?
主要发现
- 大多数模型(61 个)使用高碳能源来源(煤炭或天然气),平均碳强度约为 350–512 gCO2e/kWh;34 个使用低碳能源来源(水电或核能)。
- 样本的平均碳强度约为 372 gCO2e/kWh,低于全球平均水平,但仍有显著改进空间。
- 分析模型的总排放约为 253 吨 CO2e,排放随时间上升(从 2012 年到近年约增长 100 倍)。
- 排放在很大程度上随着训练时间和能源来源而变化;硬件功率(TDP 180–300 W)对变异的解释不及能源来源和持续时间。
- 在大多数任务中,能源使用越高与性能提升之间并不存在强烈的一致性关系;一个显著例外是 ImageNet,在该任务中较高的排放大致与更高的准确度对齐,但这种关系并非普遍存在。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。