QUICK REVIEW

[論文レビュー] Compute and Energy Consumption Trends in Deep Learning Inference

Radosvet Desislavov, Fernando Martínez‐Plumed|arXiv (Cornell University)|Sep 12, 2021

Advanced Neural Network Applications参考文献 55被引用数 43

ひとこと要約

この論文はDNNの推論計算（FLOPs）とエネルギー消費がどのように進化するかを分析し、ハードウェアとアルゴリズムの進歩が高性能モデルのエネルギー成長を緩和する一方で、最先端モデルでは指数関係の傾向が依然として存在することを示している。

ABSTRACT

The progress of some AI paradigms such as deep learning is said to be linked to an exponential growth in the number of parameters. There are many studies corroborating these trends, but does this translate into an exponential increase in energy consumption? In order to answer this question we focus on inference costs rather than training costs, as the former account for most of the computing effort, solely because of the multiplicative factors. Also, apart from algorithmic innovations, we account for more specific and powerful hardware (leading to higher FLOPS) that is usually accompanied with important energy efficiency optimisations. We also move the focus from the first implementation of a breakthrough paper towards the consolidated version of the techniques one or two year later. Under this distinctive and comprehensive perspective, we study relevant models in the areas of computer vision and natural language processing: for a sustained increase in performance we see a much softer growth in energy consumption than previously anticipated. The only caveat is, yet again, the multiplicative factor, as future AI increases penetration and becomes more pervasive.

研究の動機と目的

モデルサイズと性能の向上に伴い推論エネルギーコストが指数関数的に増加するかを評価する。
実世界のデプロイメントエネルギー使用に焦点を当てるため、トレーニングと推論のコストを区別する。
ハードウェアの改善とアルゴリズムの進歩が時間とともにエネルギー効率に与える影響を評価する。
CVとNLPに対するモデル、FLOPs、ハードウェア指標の包括的で公開アクセス可能なデータセットを提供する。

提案手法

文献とリポジトリからCVおよびNLPモデルの推論FLOPsを集約する。
2010–2021のハードウェアデータ（NVIDIA GPU）を収集し、FLOPs/Wを推定する。
FLOPs/Wを用いてフォワードパスあたりのエネルギーを推定する（FLOPsをFLOPs/Wで割る）。
GFLOPsと性能の散布図を用いてモデルの進歩（精度）と計算量を区別する。
ImageNet（CV）とGLUE（NLP）ベンチマークの傾向を分析する。

実験結果

リサーチクエスチョン

RQ1推論エネルギー消費はモデル性能とともに指数関数的に増加するのか、それとも時間とともに効率の向上が成長を緩和するのか？
RQ2ハードウェアの改善とモデルアルゴリズムの革新は、推論あたりのエネルギーにどのように相互作用して影響を与えるか？
RQ3CVとNLPモデルで効率性が停滞または加速する特定の時期はあるか？
RQ4実世界のデプロイメントにおけるモデルサイズ（FLOPs）と精度の関係は時間とともにどうなるか？
RQ5推論あたりのエネルギーは人間のエネルギー指標やより広いエネルギー動向とどう比較されるか？

主な発見

モデル	Top-1 精度	GFLOPs	年
AlexNet	56.52	1.42	2012
ZFNet	60.21	2.34	2013
GoogleLeNet	69.77	3.00	2014
MobileNet	70.6	1.14	2017
MobileNetV2 1.4	74.7	1.18	2018
EfficientNet-B1	79.1	1.40	2019
NoisyStudent-B1	81.5	1.40	2019

最新モデルのエネルギー成長はFLOPsで指数関数的だが、効率の向上とハードウェアの特化により多くのモデルでこの成長は時間とともに和らぐ。
アルゴリズムの改善（例：効率的なアーキテクチャ）は、FLOPsの比例増加なしに精度を向上させる。
ハードウェアの進歩（GPU/アクセラレータ）はFLOPS/Wを向上させ、顕著な効率向上（例：2018年のT4の混合精度）をもたらした。
CVでは、初期の同等FLOPsのモデルが後の年にはるかに高い精度を達成しており、生の計算量を超えたアルゴリズムの進歩を示している。
NLPではGLUEスコアの改善がGFLOPsの増加とともに現れる一方、性能と計算量のバランスをとる効率的なモデル（MobileBERT、SqueezeBERT など）も多く出現している。
前方伝播1回あたりの推定エネルギー（ジュール）は、ハードウェアの効率性によりFLOPsより緩やかに増加するが、最先端モデルでは依然エネルギーの急激な増加を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。