[論文レビュー] Carbon Emissions and Large Neural Network Training
本論文は複数の大規模モデルのエネルギー使用量とカーボンフットプリントを推定し、MLのトレーニングと評価における排出を削減するための戦略を概説している。
The computation demand for machine learning (ML) has grown rapidly recently, which comes with a number of costs. Estimating the energy cost helps measure its environmental impact and finding greener strategies, yet it is challenging without detailed information. We calculate the energy use and carbon footprint of several recent large models-T5, Meena, GShard, Switch Transformer, and GPT-3-and refine earlier estimates for the neural architecture search that found Evolved Transformer. We highlight the following opportunities to improve energy efficiency and CO2 equivalent emissions (CO2e): Large but sparsely activated DNNs can consume <1/10th the energy of large, dense DNNs without sacrificing accuracy despite using as many or even more parameters. Geographic location matters for ML workload scheduling since the fraction of carbon-free energy and resulting CO2e vary ~5X-10X, even within the same country and the same organization. We are now optimizing where and when large models are trained. Specific datacenter infrastructure matters, as Cloud datacenters can be ~1.4-2X more energy efficient than typical datacenters, and the ML-oriented accelerators inside them can be ~2-5X more effective than off-the-shelf systems. Remarkably, the choice of DNN, datacenter, and processor can reduce the carbon footprint up to ~100-1000X. These large factors also make retroactive estimates of energy cost difficult. To avoid miscalculations, we believe ML papers requiring large computational resources should make energy consumption and CO2e explicit when practical. We are working to be more transparent about energy use and CO2e in our future research. To help reduce the carbon footprint of ML, we believe energy usage and CO2e should be a key metric in evaluating models, and we are collaborating with MLPerf developers to include energy usage during training and inference in this industry standard benchmark.
研究の動機と目的
- 最近の大規模ニューラルネットワーク(例:T5、Meena、GShard、Switch Transformer、GPT-3) のエネルギー消費量と炭素足跡を定量化する。
- エネルギー使用に関するニューラルアーキテクチャ探索の以前の推定を改良する。
- モデルアーキテクチャ、データセンターの選択、トレーニング手法を通じてCO2eを削減する機会を強調する。
- ML研究とベンチマークにおいてエネルギーとCO2eを明示的な指標として含めることを提唱する。
提案手法
- 最近の大規模モデル(T5、Meena、GShard、Switch Transformer、GPT-3) のエネルギー使用量と CO2e の推定をレビュー・集約する。
- エネルギー効率に関する以前のニューラルアーキテクチャ探索の推定値(Evolved Transformer)を更新する。
- モデルのスパース性、地理的場所、データセンターのインフラストラクチャ、加速器など、エネルギー消費に影響を与える要因を分析する。
- MLのトレーニングと推論における排出を削減し、エネルギー効率を向上させる実践的戦略を提案する。
実験結果
リサーチクエスチョン
- RQ1最近の大規模ニューラルネットワークの推定エネルギー使用量とCO2eはどれくらいか?
- RQ2アーキテクチャの選択、データセンターの特性、地理的位置がカーボンフットプリントにどのように影響するか?
- RQ3大規模MLトレーニングにおいてエネルギー消費とCO2eを意味のあるレベルで削減する戦略は何か?
- RQ4エネルギー使用量とCO2eを標準的なML評価とベンチマークに組み込むべきか?
主な発見
- 大規模で疎に活性化されるDNNは、同等のパラメータ数であっても、精度を犠牲にすることなく、大規模で高密度なDNNのエネルギーの<1/10を使用する可能性がある。
- 地理的場所は、カーボンフリーエネルギー割合の差によりCO2eに5倍〜10倍の差を生む可能性がある。
- 大規模モデルを訓練する場所と時期を最適化することで、実質的な排出削減を達成できる。
- データセンターのインフラが重要で、クラウドデータセンターは典型的なデータセンターよりしばしば1.4–2倍のエネルギー効率、そこにあるMLアクセラレーターは市販システムより2–5倍効果的。
- DNNの選択、データセンター、プロセッサの組み合わせで炭素フットプリントを最大100〜1000倍削減できる。
- 著者らはML研究におけるエネルギー使用量とCO2eの明示的な報告を提唱し、これらの指標をMLPerfベンチマークに組み込むことを提案している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。