QUICK REVIEW

[論文レビュー] Benchmarking the Performance and Power of AI Accelerators for AI Training

Yuxin Wang, Qiang Wang|arXiv (Cornell University)|Sep 15, 2019

Advanced Neural Network Applications参考文献 23被引用数 14

ひとこと要約

本論文は、CNN、LSTM、Deep Speech 2、Transformersを含む多様なディープラーニングワークロードにおいて、Intel CPU、NVIDIA GPU、AMD GPU、Google TPUという主要なAIアクセラレータの性能およびエネルギー効率をベンチマークしている。ハードウェア設計、ベンダー最適化ライブラリ、ディープラーニングフレームワークの影響により、トレーニング時間やエネルギー消費に顕著な差が生じることが明らかになった。これにより、ハードウェア選定およびソフトウェア最適化のための実用的洞察が得られる。

ABSTRACT

Deep learning has become widely used in complex AI applications. Yet, training a deep neural network (DNNs) model requires a considerable amount of calculations, long running time, and much energy. Nowadays, many-core AI accelerators (e.g., GPUs and TPUs) are designed to improve the performance of AI training. However, processors from different vendors perform dissimilarly in terms of performance and energy consumption. To investigate the differences among several popular off-the-shelf processors (i.e., Intel CPU, NVIDIA GPU, AMD GPU, and Google TPU) in training DNNs, we carry out a comprehensive empirical study on the performance and energy efficiency of these processors by benchmarking a representative set of deep learning workloads, including computation-intensive operations, classical convolutional neural networks (CNNs), recurrent neural networks (LSTM), Deep Speech 2, and Transformer. Different from the existing end-to-end benchmarks which only present the training time, We try to investigate the impact of hardware, vendor's software library, and deep learning framework on the performance and energy consumption of AI training. Our evaluation methods and results not only provide an informative guide for end-users to select proper AI accelerators, but also expose some opportunities for the hardware vendors to improve their software library.

研究の動機と目的

オフザシェルの主要なAIアクセラレータのディープニューラルネットワークトレーニングにおける性能およびエネルギー効率を評価・比較すること。
ハードウェアアーキテクチャ、ベンダー最適化ソフトウェアライブラリ、ディープラーニングフレームワークがトレーニング効率に与える影響を統合的に特定すること。
エンドユーザーが特定のワークロードに最適なAIアクセラレータを選定するのを支援する実証的データを提供すること。
現在のソフトウェアライブラリにおけるギャップと、既存のハードウェア上で性能およびエネルギー効率を向上させる可能性を明らかにすること。

提案手法

計算集約的演算、CNN、LSTM、Deep Speech 2、Transformersを含む代表的なディープラーニングワークロードを用いた包括的な実験的調査を実施。
Intel CPU、NVIDIA GPU、AMD GPU、Google TPUの4つのプロセッサにおけるトレーニング時間およびエネルギー消費を測定。
標準化されたディープラーニングフレームワークとベンダー提供のソフトウェアライブラリを用い、ハードウェアおよびソフトウェアスタックの影響を分離。
異なるワークロード間での比較を通じて、性能およびエネルギー効率のばらつきを評価。
各要素（ハードウェア、ソフトウェアライブラリ、フレームワーク）が全体のトレーニング効率に与える寄与度を分析。
公平なベンダーおよびプラットフォーム間比較を確保するため、制御された実験条件を採用。

実験結果

リサーチクエスチョン

RQ1異なるAIアクセラレータ（CPU、GPU、TPU）は、多様なディープラーニングワークロードにおいて、トレーニング時間およびエネルギー消費でどのように比較されるか？
RQ2ベンダー最適化ソフトウェアライブラリは、AIトレーニングの性能およびエネルギー効率にどの程度影響を与えるか？
RQ3ディープラーニングフレームワークの違いは、AIアクセラレータの性能および消費電力にどのように影響するか？
RQ4特定のニューラルネットワークアーキテクチャに対して、どのハードウェア・ソフトウェア組み合わせが最良のパフォーマンス対エネルギー比を達成するか？

主な発見

AIアクセラレータ間で顕著なパフォーマンス差が存在し、特にTransformersのようなワークロードではTPUが優れたトレーニング速度を示した。
NVIDIA GPUは、高度に最適化されたcuDNNライブラリのおかげで、多くのCNNおよびLSTMワークロードで最高のパフォーマンス対エネルギー比を達成した。
AMD GPUは、大多数のベンチマークにおいてNVIDIAおよびTPUと比較して、パフォーマンスに比して高いエネルギー消費を示した。
ディープラーニングフレームワークの選定は、トレーニング時間およびエネルギー使用量に測定可能な影響を与え、特に非最適なソフトウェアライブラリと組み合わせると顕著だった。
ベンダー最適化ソフトウェアライブラリはパフォーマンス向上に大きく貢献し、NVIDIAのcuDNNおよびGoogleのXLAは、一般的な実装と比較して顕著な改善を示した。
エネルギー効率はワークロードによって顕著に異なり、Transformersおよび計算集約的演算では、ハードウェアプラットフォーム間で最も顕著な差が見られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。