[논문 리뷰] Carbon Emissions and Large Neural Network Training
본 논문은 여러 대형 모델의 에너지 사용 및 탄소 발자국을 추정하고 ML 학습 및 평가에서 배출을 줄이기 위한 전략을 제시한다.
The computation demand for machine learning (ML) has grown rapidly recently, which comes with a number of costs. Estimating the energy cost helps measure its environmental impact and finding greener strategies, yet it is challenging without detailed information. We calculate the energy use and carbon footprint of several recent large models-T5, Meena, GShard, Switch Transformer, and GPT-3-and refine earlier estimates for the neural architecture search that found Evolved Transformer. We highlight the following opportunities to improve energy efficiency and CO2 equivalent emissions (CO2e): Large but sparsely activated DNNs can consume <1/10th the energy of large, dense DNNs without sacrificing accuracy despite using as many or even more parameters. Geographic location matters for ML workload scheduling since the fraction of carbon-free energy and resulting CO2e vary ~5X-10X, even within the same country and the same organization. We are now optimizing where and when large models are trained. Specific datacenter infrastructure matters, as Cloud datacenters can be ~1.4-2X more energy efficient than typical datacenters, and the ML-oriented accelerators inside them can be ~2-5X more effective than off-the-shelf systems. Remarkably, the choice of DNN, datacenter, and processor can reduce the carbon footprint up to ~100-1000X. These large factors also make retroactive estimates of energy cost difficult. To avoid miscalculations, we believe ML papers requiring large computational resources should make energy consumption and CO2e explicit when practical. We are working to be more transparent about energy use and CO2e in our future research. To help reduce the carbon footprint of ML, we believe energy usage and CO2e should be a key metric in evaluating models, and we are collaborating with MLPerf developers to include energy usage during training and inference in this industry standard benchmark.
연구 동기 및 목표
- 최근 대형 신경망(예: T5, Meena, GShard, Switch Transformer, GPT-3)의 에너지 소비 및 탄소 발자국을 정량화한다.
- 에너지 사용에 대한 신경망 구조 탐색의 이전 추정치를 다듬는다.
- 모델 아키텍처, 데이터센터 선택 및 학습 관행을 통해 CO2e를 줄일 수 있는 기회를 강조한다.
- ML 연구와 벤치마크에서 에너지 사용과 CO2e를 명시적 지표로 포함해야 한다를 주장한다.
제안 방법
- 최근 대형 모델들(T5, Meena, GShard, Switch Transformer, GPT-3)의 에너지 사용 및 CO2e 추정치를 검토하고 집계한다.
- 에너지 효율성에 대한 초기 신경망 아키텍처 탐색 추정치를 업데이트한다(진화된 변환기(Evolved Transformer)).
- 모델 희소성, 지리적 위치, 데이터센터 인프라, 가속기 등 에너지 소비에 영향을 미치는 요인을 분석한다.
- ML 학습 및 추론에서 배출을 줄이고 에너지 효율성을 향상시키기 위한 실용적인 전략을 제시한다.
실험 결과
연구 질문
- RQ1최근 대형 신경망의 추정 에너지 사용 및 CO2e는 얼마인가?
- RQ2아키텍처 선택, 데이터센터 특성, 지리적 위치가 탄소 발자국에 어떤 영향을 미치는가?
- RQ3대규모 ML 학습에서 에너지 소비 및 CO2e를 의미 있게 줄일 수 있는 전략은 무엇인가?
- RQ4에너지 사용과 CO2e를 표준 ML 평가 및 벤치마킹에 포함시켜야 하는가?
주요 결과
- 크고 희소하게 활성화되는 DNN은 비활성화가 적은 대형 밀집 DNN에 비해 정확도를 손실하지 않으면서도 에너지 사용을 1/10 미만으로 줄일 수 있다(매개변수 수가 비슷하거나 더 많아도 가능).
- 지리적 위치는 탄소 없는 에너지 비율에 따라 CO2e에 5배~10배 차이를 유발할 수 있다.
- 대형 모델의 학습 장소와 시점을 최적화하면 의미 있는 배출 감소를 얻을 수 있다.
- 데이터센터 인프라가 중요하며, 클라우드 데이터센터는 일반 데이터센터보다 보통 1.4~2배 더 에너지 효율적이고, 그 안의 ML 가속기는 일반 시스템보다 2~5배 더 효과적이다.
- DNN, 데이터센터, 프로세서의 조합은 탄소 발자국을 최대 100~1000배까지 줄일 수 있다.
- 저자들은 ML 연구에서 에너지 사용과 CO2e를 명시적으로 보고하고, 이러한 지표를 MLPerf 벤치마킹에 반영할 것을 지지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.