[논문 리뷰] Counting Carbon: A Survey of Factors Influencing the Emissions of Machine Learning
이 논문은 95개 모델에 걸친 ML 모델 학습의 탄소 배출을 조사하고, 에너지 원천, 배출량, 시간에 따른 진화 및 성능과의 관계를 분석하며, 중앙 집중식 보고를 제안한다.
Machine learning (ML) requires using energy to carry out computations during the model training process. The generation of this energy comes with an environmental cost in terms of greenhouse gas emissions, depending on quantity used and the energy source. Existing research on the environmental impacts of ML has been limited to analyses covering a small number of models and does not adequately represent the diversity of ML models and tasks. In the current study, we present a survey of the carbon emissions of 95 ML models across time and different tasks in natural language processing and computer vision. We analyze them in terms of the energy sources used, the amount of CO2 emissions produced, how these emissions evolve across time and how they relate to model performance. We conclude with a discussion regarding the carbon footprint of our field and propose the creation of a centralized repository for reporting and tracking these emissions.
연구 동기 및 목표
- 다양한 작업과 기간에 걸쳐 ML 모델 학습과 관련된 탄소 배출량을 정량화한다.
- 배출을 주도하는 주요 요인(에너지 원천, 학습 시간, 하드웨어)을 식별하고 그 영향을 정량화한다.
- 시간의 흐름과 다양한 작업에 걸쳐 배출량이 어떻게 변해왔는지 살펴본다.
- 에너지/CO2 사용과 모델 성능 간의 관계를 탐색하여 효율성 향상을 평가한다.
제안 방법
- Thompson et al. (2020) 데이터셋의 ML 계산 요구사항을 활용하고 500편의 논문을 샘플링하여 77편의 논문에서 95개 학습 모델을 얻었으며(응답률 15.4%),
- CO2eq 배출량을 C = P × T × I = E × I로 추정하되, P는 하드웨어 전력(Through TDP를 통해), T는 GPU 시간 단위의 학습 시간, I는 공개 소스의 그리드 탄소 강도이다.
- 훈련 위치별로 연간 그리드 데이터를 사용하여 탄소 강도를 추정하고, 내부 회사 인프라를 회사 보고서를 통해 반영하며, 클라우드 플랫폼의 경우 공급자 데이터를 활용한다.
- 총 하드웨어 시간(예: 16 GPU를 24시간 운용하면 384 GPU 시간)으로 학습 시간을 계산한다.
- 로그 스케일의 에너지와 배출량으로 결과를 제시하고, 주요 에너지원(석탄, 천연가스, 수력, 석유, 원자력)과 그에 해당하는 탄소 강도를 분석하며, 에너지, 배출량 및 성능 간의 관계를 조사한다.

실험 결과
연구 질문
- RQ1ML 모델 학습에 사용되는 주요 에너지 원천은 무엇인가?
- RQ2ML 모델 학습이 생성하는 CO2 배출량의 규모는 어느 정도인가?
- RQ3ML 모델 학습이 만들어내는 CO2 배출량은 시간에 따라 어떻게 evolution 하는가?
- RQ4더 많은 에너지와 CO2가 더 나은 모델 성능으로 이어지는가?
주요 결과
- 대부분의 모델(61)은 고탄소 에너지 원천(석탄 또는 천연가스)을 사용했고 평균 탄소 강도는 약 350–512 gCO2e/kWh인 반면, 34개는 저탄소 원천(수력·원자력)을 사용했다.
- 샘플의 평균 탄소 강도는 약 372 gCO2e/kWh로 글로벌 평균보다 낮지만 여전히 개선 여지가 상당하다.
- 분석된 모델들의 총 배출량은 약 253톤 CO2e이며, 시간에 따라 배출량이 증가하고 있다(2012년에서 최근 몇 년간 약 100배 증가).
- 배출량은 학습 시간과 에너지 원천에 따라 크게 달라지며, 하드웨어 전력(TDP 180–300 W)은 에너지 원천과 지속 시간에 비해 변동 설명력이 덜하다.
- 대부분의 작업에서 더 많은 에너지 사용이 더 나은 성능과 강하게 일치하는 것은 아니지만, ImageNet의 경우 더 높은 배출이 대략 더 높은 정확도와 일치하는 경향이 있지만 보편적이지는 않다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.