QUICK REVIEW

[論文レビュー] Benchmarking TPU, GPU, and CPU Platforms for Deep Learning

Yu Emma Wang, Gu-Yeon Wei|arXiv (Cornell University)|Jul 24, 2019

Parallel Computing and Optimization Techniques参考文献 48被引用数 230

ひとこと要約

本研究では ParaDnn、パラメータ化されたディープラーニングベンチマークを紹介し、TPU v2/v3、NVIDIA V100 GPU、および Intel Skylake CPU を、エンドツーエンドのFC、CNN、RNNワークロードで比較します。これにより、プラットフォーム固有の強みとボトルネックが明らかになります。

ABSTRACT

Training deep learning models is compute-intensive and there is an industry-wide trend towards hardware specialization to improve performance. To systematically benchmark deep learning platforms, we introduce ParaDnn, a parameterized benchmark suite for deep learning that generates end-to-end models for fully connected (FC), convolutional (CNN), and recurrent (RNN) neural networks. Along with six real-world models, we benchmark Google's Cloud TPU v2/v3, NVIDIA's V100 GPU, and an Intel Skylake CPU platform. We take a deep dive into TPU architecture, reveal its bottlenecks, and highlight valuable lessons learned for future specialized system design. We also provide a thorough comparison of the platforms and find that each has unique strengths for some types of models. Finally, we quantify the rapid performance improvements that specialized software stacks provide for the TPU and GPU platforms.

研究の動機と目的

小規模モデルのサンプルに留まらず、ディープラーニングハードウェアの系統的でエンドツーエンドのベンチマークを動機づける。
ParaDnn を提案し、FC、CNN、RNN アーキテクチャを網羅する何千ものパラメータ化されたエンドツーエンドモデルを生成する。
ParaDnn と実世界ワークロードを用いて、TPU、GPU、CPUプラットフォームの包括的な比較を提供する。
将来の特化ハードウェアとスタック最適化を導く建築およびソフトウェア設計の洞察を特定する。

提案手法

パラメータ化されたベンチマークスイートである ParaDnn を導入し、エンドツーエンドの FC、CNN、RNN モデルを生成します。
ParaDnn ワークロードを実世界の6つのモデルと組み合わせ、広範なベンチマークセットを作成します。
Google Cloud TPU v2/v3、NVIDIA V100 GPU、および Intel Skylake CPU プラットフォームを評価します。
計算、メモリ帯域、マルチチップオーバーヘッド、ホスト-デバイスのバランスを含む TPU アーキテクチャのボトルネックを分析します。
FLOPS 利用率、ルーフライン分析、演算分解を使用して、モデル間の性能を特徴づけます。

実験結果

リサーチクエスチョン

RQ1多様なエンドツーエンドモデルに対して、TPU v2/v3 の性能を制限する主なボトルネックは何ですか？
RQ2ParaDnn 生成物と実世界の DL ワークロードの広範なセットで、TPU、GPU、CPU プラットフォームはどう比較されますか？
RQ3モデル属性（例：バッチサイズ、幅、埋め込みサイズ）がハードウェア利用率と性能ボトルネックにどう影響しますか？
RQ4TPU および GPU プラットフォームで性能を向上させることができるソフトウェアおよびデータ精度戦略は何ですか？

主な発見

多くの FC および CNN ワークロードにおいて、良好なバッチサイズスケーリングにもかかわらず、メモリ帯域とチップ間通信によって TPU の性能が制約されます。
TPU v3 は、単純な FLOPS 増加を超えた、大きなメモリ容量とより高い帯域幅によって、v2 に比べて大幅な速度向上を提供します。
メモリ帯域幅の制約とデータ供給のボトルネックは、TPU と GPU の性能に大きく影響します。データ供給の最適化は顕著な向上をもたらします。
大規模なバッチサイズはマルチチップ間の通信オーバーヘッドを低減でき、モデルの深さ（層数）はモデル並列化やパイプライニングを通じて活用されていない並列性の機会を提供します。
量子化とソフトウェアスタックの改善は TPU および GPU プラットフォームで意味のある性能向上をもたらし、コンパイラとカーネル最適化によりさらなる向上が可能です。
最大規模の全結合モデルはメモリ制約のために CPU を好む傾向がありますが、アーキテクチャによっては一部の CNN/RNN ワークロードが TPU/GPU の優位性を示します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。