Skip to main content
QUICK REVIEW

[論文レビュー] Measuring the Energy Consumption and Efficiency of Deep Neural Networks: An Empirical Analysis and Design Recommendations

Charles Tripp, Jordan Perr‐Sauer|arXiv (Cornell University)|Mar 13, 2024
Smart Grid Energy Management被引用数 8
ひとこと要約

本論文は、ノードレベルのワットメータを用いて密結合全結合ネットワークのトレーニング時のエネルギー使用を実証的に測定し、BUTTER-Eデータセットを導入、キャッシュ/メモリの影響を分析し、エネルギー効率の高いニューラルネット設計のためのエネルギーモデルと設計推奨を提案します。

ABSTRACT

Addressing the so-called ``Red-AI'' trend of rising energy consumption by large-scale neural networks, this study investigates the actual energy consumption, as measured by node-level watt-meters, of training various fully connected neural network architectures. We introduce the BUTTER-E dataset, an augmentation to the BUTTER Empirical Deep Learning dataset, containing energy consumption and performance data from 63,527 individual experimental runs spanning 30,582 distinct configurations: 13 datasets, 20 sizes (number of trainable parameters), 8 network ``shapes'', and 14 depths on both CPU and GPU hardware collected using node-level watt-meters. This dataset reveals the complex relationship between dataset size, network structure, and energy use, and highlights the impact of cache effects. We propose a straightforward and effective energy model that accounts for network size, computing, and memory hierarchy. Our analysis also uncovers a surprising, hardware-mediated non-linear relationship between energy efficiency and network design, challenging the assumption that reducing the number of parameters or FLOPs is the best way to achieve greater energy efficiency. Highlighting the need for cache-considerate algorithm development, we suggest a combined approach to energy efficient network, algorithm, and hardware design. This work contributes to the fields of sustainable computing and Green AI, offering practical guidance for creating more energy-efficient neural networks and promoting sustainable AI.

研究の動機と目的

  • ニューラルネットワークのトレーニングにおけるエネルギー消費を「Red AI」トレンドの下で理解する緊急性を動機づける。
  • 実世界のエネルギーと性能を多数の設定で捉えるBUTTER-Eデータセットを作成・公開する。
  • ハイパーパラメータ、ネットワークトポロジー、ハードウェアがエネルギー使用に与える影響を特徴づける。
  • ネットワークサイズ、計算、メモリ階層を考慮した単純なエネルギーモデルを開発し、エネルギー効率の高い設計への示唆を議論する。
  • エネルギー効率の高いアーキテクチャ、アルゴリズム、ハードウェアの設計指針を提供し、Green AIを前進させる。

提案手法

  • HPCシステム上でノードレベルのワットメータを用いてエネルギー測定を収集する(CPUとGPUの実行)。
  • BUTTER-Eデータセットを63,527回の実行、30,582の設定(13データセット、20パラメータサイズ、8形状、14深さ)で作成・拡張する。
  • アイドル電力差分とオーバーヘッドを除去して異種ノード間でエネルギー測定を標準化する。
  • 原データの電力データをフィルタリング・品質管理し、スケジューラデータと電力 tracesを整列させて正確な実行単位のエネルギーと時間統計を得る。
  • ワーキングセット定義とメモリ階層の考慮を通じて集積トレンドとキャッシュ関連効果を分析する。
  • ハイパーパラメータ、ワーキングセットサイズ、キャッシュ境界を観測されたエネルギー消費に結びつけるハードウェア志向のエネルギーモデルを適合させる。
Figure 1 : (a) The energy consumption (left axis) and corresponding carbon emissions given the average energy generation mix in the United States (right axis) incurred by training published AI models has increased dramatically over the last two decades, the so-called “Red AI Era.” The AI System Tota
Figure 1 : (a) The energy consumption (left axis) and corresponding carbon emissions given the average energy generation mix in the United States (right axis) incurred by training published AI models has increased dramatically over the last two decades, the so-called “Red AI Era.” The AI System Tota

実験結果

リサーチクエスチョン

  • RQ1データセットサイズ、ネットワークトポロジー、深さはトレーニングデータあたりおよびエポックあたりのエネルギー消費にどう影響するか?
  • RQ2ハードウェア要因(CPU対GPU、キャッシュサイズ)はニューラルネットトレーニングのエネルギー効率にどの程度影響するか?
  • RQ3メモリ階層とキャッシュ効果を考慮したとき、エネルギー、FLOPs、パラメータ数の間にどのような非線形関係が存在するか?
  • RQ4単純なエネルギーモデルは、多様な設定にわたる全結合ネットワークのエネルギー使用の主要な推進要因を捉えられるか?
  • RQ5エネルギー効率の高いネットワーク、アルゴリズム、ハードウェアの設計指針は何か?

主な発見

  • トレーニングデータあたりのエネルギーはパラメータ数とFLOPsの両方と非線形に増加し、キャッシュとメモリ階層が重要な役割を果たす。
  • GPUベースのトレーニングは、特定のパラメータ数を超えるまでデータあたりのエネルギーが高くなる。CPUはキャッシュとエポックあたりのオーバーヘッドの影響で異なる非線形パターンを示す。
  • 深さはデータあたりのエネルギーと相関があり、浅いネットワークでは小さな深さでGPUがエネルギー効率的になり得る一方、深さが増えるにつれてGPUがより効率的になる。
  • パラメータ数の約2^20付近(GPU L2キャッシュ容量付近)でデータあたりのエネルギー挙動がより線形的な領域へ転換し、キャッシュ効果を反映する。
  • ネットワークトポロジー、キャッシュ相互作用、ワーキングセットサイズを考慮した経験的に根拠づけられたエネルギーモデルは、観測データに適合し、キャッシュを意識したアルゴリズム/ハードウェア設計の重要性を強調する。
  • この研究は、Red AI動向に対応するためのエネルギー効率の高いアーキテクチャ、アルゴリズム、ハードウェアに関する実践的な洞察を提供する。
Figure 2 : Histograms (on logarithmic axes) showing the quantity and location of data filtered out for this analysis. The filters reject 241 runs, which is approximately 0.6% of the total number of runs.
Figure 2 : Histograms (on logarithmic axes) showing the quantity and location of data filtered out for this analysis. The filters reject 241 runs, which is approximately 0.6% of the total number of runs.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。