[論文レビュー] Dissecting the NVidia Turing T4 GPU via Microbenchmarking
この技術報告書はマイクロベンチマークを実施して NVIDIA Turing T4 GPU を分析・分解し、そのアーキテクチャ動作の実証的分析を提供します。
In 2019, the rapid rate at which GPU manufacturers refresh their designs, coupled with their reluctance to disclose microarchitectural details, is still a hurdle for those software designers who want to extract the highest possible performance. Last year, these very reasons motivated us to dissect the Volta GPU architecture using microbenchmarks. The introduction in August 2018 of Turing, NVidia's latest architecture, pressed us to update our study. In this report, we examine Turing and compare it quantitatively against previous NVidia GPU generations. Specifically, we study the T4 GPU: a low-power board aiming at inference applications. We describe its improvements against its inference-oriented predecessor: the P4 GPU based on the Pascal architecture. Both T4 and P4 GPUs achieve significantly higher frequency-per-Watt figures than their full-size counterparts. We study the performance of the T4's TensorCores, finding a much higher throughput on low-precision operands than on the P4 GPU. We reveal that Turing introduces new instructions that express matrix math more succinctly. We map Turing's instruction space, finding the same encoding as Volta, and additional instructions. We reveal that the Turing TU104 chip has the same memory hierarchy depth as the Volta GV100; cache levels sizes on the TU104 are frequently twice as large as those found on the Pascal GP104. We benchmark each constituent of the T4 memory hierarchy and find substantial overall performance improvements over its P4 predecessor. We studied how clock throttling affects compute-intensive workloads that hit power or thermal limits. Many of our findings are novel, published here for the first time. All of them can guide high-performance software developers get closer to the GPU's peak performance.
研究の動機と目的
- ターゲットを絞ったマイクロベンチマークを通じて Turing T4 アーキテクチャの理解を促進する。
- 制御された実験を用いて T4 の性能と挙動の側面を特徴づける。
- ベンダーの確認に依存しない再現性のある実験手法と分析を提供する。
提案手法
- Turing T4 GPU を探るためにマイクロベンチマーク手法を適用する。
- 再現性を確保するための実験設定と測定手順を説明する。
- 観察された挙動を分析してアーキテクチャ的および性能特性を推定する。
- 著者の実験観察に基づく分析と発見を提示する。
実験結果
リサーチクエスチョン
- RQ1抜粋には明示的な研究質問が提供されていません。
主な発見
- 本報告は Turing T4 GPU に対するマイクロベンチマーク実験から得られた分析と発見を提示します。
- 発見は著者の測定と解釈からの経験的観察を反映しています。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。