QUICK REVIEW

[論文レビュー] Accuracy is not the only Metric that matters: Estimating the Energy Consumption of Deep Learning Models

Johannes Getzner, Bertrand Charpentier|arXiv (Cornell University)|Apr 3, 2023

Green IT and Sustainability被引用数 7

ひとこと要約

論文は、層ごとのエネルギー推定を合計することにより DL モデルの CPU エネルギー消費を予測するエネルギー推定パイプラインを提示し、層タイプごとに学習した予測器を使用してモデルを実行することなく事前トレーニングのエネルギー予算を可能にする。特徴セットを分析し、MACカウントを主要な予測子として示すが、実アーキテクチャへの一般化にはばらつきがある。

ABSTRACT

Modern machine learning models have started to consume incredible amounts of energy, thus incurring large carbon footprints (Strubell et al., 2019). To address this issue, we have created an energy estimation pipeline1, which allows practitioners to estimate the energy needs of their models in advance, without actually running or training them. We accomplished this, by collecting high-quality energy data and building a first baseline model, capable of predicting the energy consumption of DL models by accumulating their estimated layer-wise energies.

研究の動機と目的

DLモデルにおける正確性や他のパフォーマンス指標と同様にエネルギー消費を考慮する必要性を動機づける。
CPU 用エネルギー使用量を測定し、層タイプ用の予測器を構築するためのモジュール式データ収集プロセスを提供する。
各層のエネルギー推定を合算してモデルのエネルギーを推定する簡易なベースラインを開発する。
異なる特徴セットと MAC カウントがエネルギー推定に与える予測力を評価する。
実アーキテクチャへ一般化を評価し、このアプローチの限界を議論する。

提案手法

DL層タイプとアーキテクチャの高品質なエネルギーデータを cpu 硬件上で codecarbon を用いて収集する。
標準パラメータ、対数変換パラメータ、MAC カウントを含む特徴セットを用いて、各層タイプごとに線形/多項式回帰を用いた別個のエネルギー予測器を構築する。
エネルギー targets に MinMaxScaler を適用し、特徴には任意で StandardScaler を適用する；MAC を重要な特徴として含める。
アーキテクチャごとに層ごとのエネルギーを推定し、予測を合算して総合的なアーキテクチャエネルギーを得る；実測値と比較してモデル単位の測定値と照合する。
Conv2d、MaxPool2d、Linear、活性化関数の予測能力を決定するため、MAC、対数特徴、多項式を含む特徴セットの変 variations を試す。
MAC や他の特徴の影響を特定するためのアブレーション分析を実施する。

実験結果

リサーチクエスチョン

RQ1個々の DL 層タイプのエネルギーを層ごとの予測器が正確に推定できるか？
RQ2MAC カウントを特徴として含めると、層タイプ間でエネルギー予測の精度にどのような影響があるか？
RQ3層ごとにエネルギーを推定して合算することは、実データのモデル全体のエネルギー推定と同等の精度を提供するか？
RQ4異なる特徴セット（標準パラメータ、対数変換パラメータ、MAC、およびそれらの組み合わせ）は、Conv2d、MaxPool2d、Linear、活性化層の予測性能にどのような影響を与えるか？
RQ5ランダム構成で学習した予測器は AlexNet や VGG などの実アーキテクチャへどの程度一般化するか？

主な発見

Module	Avg. R^2 Cross-Val	Avg. MSE Cross-Val	R^2 Test Set	MSE Test-Set
Conv2d	0.994 (± 0.005)	-2.291e-05 (± 1.329e-05)	0.9977	2.779e-05
MaxPool2d	0.999 (± 0.000)	-2.552e-06 (± 4.612e-06)	0.9995	7.736e-07
Linear	0.999 (± 0.000)	-4.284e-05 (± 1.425e-05)	0.9992	3.384e-05
ReLU	0.981 (± 0.005)	-1.046e-03 (± 2.284e-04)	0.9812	8.998e-04
Sigmoid	0.981 (± 0.008)	-1.047e-03 (± 1.866e-04)	0.9905	7.538e-04
Tanh	0.976 (± 0.008)	-1.315e-03 (± 4.252e-04)	0.9761	1.412e-03
Softmax	0.989 (± 0.004)	-5.671e-04 (± 1.599e-04)	0.9913	4.972e-04

層タイプ別予測器はほとんどの層で高いテストセット R^2 を達成する（Conv2d: 0.9977、MaxPool2d: 0.9992、Linear: 0.9992、ReLU: 0.9812、Sigmoid: 0.9905、Tanh: 0.9761、Softmax: 0.9913）。
MAC カウントは重要な予測子であり、ある層では単独でほぼ最適な予測を生み出すことができる（Conv2d: 0.9977、MaxPool2d: 0.9995、Linear: 0.9992）。
アーキテクチャ全体のエネルギーを層ごとに推定して合算すると、実構成でのモデル全体エネルギーの R^2 が 0.352 となり、一般化の課題を示す。
実アーキテクチャの層構成でトレーニングデータを増やすと、Conv2d の R^2 が 0.314 から 0.395 に、MaxPool2d が 0.559 から 0.679 に改善される。
特徴のアブレーションは MAC カウントが予測性能を大幅に高めることを示す。MAC を欠くと Conv2d の R^2 は 0.25 に低下し、MAC を含めると 0.998 まで達する。
エネルギー予測の精度は層タイプによって異なり、活性化は総エネルギーへの寄与が小さく、線形/畳み込み層が大部分のエネルギーを消費する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。