QUICK REVIEW

[論文レビュー] In-Datacenter Performance Analysis of a Tensor Processing Unit

Norman P. Jouppi, Cliff Young|arXiv (Cornell University)|Apr 16, 2017

Parallel Computing and Optimization Techniques被引用数 23

ひとこと要約

この論文は、2015年以降、生産環境のデータセンターで使用されている、ニューラルネットワーク推論向けに設計されたドメイン特化型ASICであるGoogleのカスタムTensor Processing Unit (TPU)の評価を行っている。65,536並列の8ビットMACアレイと決定論的な実行モデルを活用することで、最新のCPUやGPUと比較して15–30倍の高い性能と30–80倍の高いTOPS/Wattのエネルギー効率を達成しており、GDDR5メモリを採用すれば最大70倍のTOPS/Wattにまで向上する可能性がある。

ABSTRACT

Many architects believe that major improvements in cost-energy-performance must now come from domain-specific hardware. This paper evaluates a custom ASIC---called a Tensor Processing Unit (TPU)---deployed in datacenters since 2015 that accelerates the inference phase of neural networks (NN). The heart of the TPU is a 65,536 8-bit MAC matrix multiply unit that offers a peak throughput of 92 TeraOps/second (TOPS) and a large (28 MiB) software-managed on-chip memory. The TPU's deterministic execution model is a better match to the 99th-percentile response-time requirement of our NN applications than are the time-varying optimizations of CPUs and GPUs (caches, out-of-order execution, multithreading, multiprocessing, prefetching, ...) that help average throughput more than guaranteed latency. The lack of such features helps explain why, despite having myriad MACs and a big memory, the TPU is relatively small and low power. We compare the TPU to a server-class Intel Haswell CPU and an Nvidia K80 GPU, which are contemporaries deployed in the same datacenters. Our workload, written in the high-level TensorFlow framework, uses production NN applications (MLPs, CNNs, and LSTMs) that represent 95% of our datacenters' NN inference demand. Despite low utilization for some applications, the TPU is on average about 15X - 30X faster than its contemporary GPU or CPU, with TOPS/Watt about 30X - 80X higher. Moreover, using the GPU's GDDR5 memory in the TPU would triple achieved TOPS and raise TOPS/Watt to nearly 70X the GPU and 200X the CPU.

研究の動機と目的

2015年以降、生産環境のデータセンターに導入されているカスタムASIC—Tensor Processing Unit (TPU)の性能、効率、スケーラビリティを評価すること。
機械学習推論ワークロードにおけるコスト、エネルギー、パフォーマンスの向上を図るドメイン特化型ハードウェアの需要の増大に応えること。
実際の生産ワークロードを用いて、最新のサーバークラスCPUとGPUと比較してTPUのパフォーマンスと効率を評価すること。
キャッシュベースで時間的に変動する最適化を採用する一般用途プロセッサとは異なり、決定論的実行とソフトウェア管理メモリが、一般用途プロセッサよりも優れた低遅延保証を実現できることを示すこと。

提案手法

ピークスループット92 TOPSを達成する65,536並列の8ビット乗算累積（MAC）ユニットを備えたドメイン特化型ASICの設計。
オフチップメモリ帯域幅と遅延を低減するため、大容量（28 MiB）でソフトウェア管理のオンチップメモリを実装。
キャッシュ、順序入れ替え実行、マルチスレッディングといった時間的に変動する最適化を回避する決定論的実行モデルの採用。
TensorFlowフレームワークからの実際の生産ワークロード（MLP、CNN、LSTMを含む）を用いて評価し、データセンター内推論需要の95％をカバー。
同一のデータセンター環境とワークロード設定下で、Intel Haswell CPUとNvidia K80 GPUとを比較ベンチマーク。
TOPS、TOPS/Watt、99百分位応答時間といった指標を用いて、パフォーマンスとエネルギー効率を分析。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワーク推論ワークロードにおいて、TPUのパフォーマンスとエネルギー効率は、最新のCPUやGPUと比べてどの程度優れているか？
RQ2CPUやGPUが採用する動的最適化とは異なり、TPUの決定論的実行モデルは、99百分位応答時間にどの程度の向上効果をもたらすか？
RQ3TPUのHBM2メモリをGDDR5に置き換えることで得られるパフォーマンス向上はどの程度か？また、これによりTOPSとTOPS/Wattはどのように変化するか？
RQ4一部のアプリケーションでは比較的低い利用率であるにもかかわらず、なぜTPUは高いスループットと効率を達成できるのか？
RQ5ソフトウェア管理の28 MiBオンチップメモリは、TPUアーキテクチャにおけるパフォーマンスとエネルギー効率にどのように寄与しているか？

主な発見

TPUは、実際の生産環境におけるニューラルネットワーク推論ワークロードにおいて、最新のIntel Haswell CPUやNvidia K80 GPUと比較して15–30倍の高いパフォーマンスを達成している。
TPUはCPUとGPUと比較して30–80倍の高いTOPS/Wattを達成しており、優れたエネルギー効率を示している。
TPUのHBM2メモリをGDDR5に置き換えると、実現可能なTOPSが3倍に増加し、GPU比で約70倍、CPU比で約200倍のTOPS/Wattにまで向上する。
TPUの決定論的実行モデルは、時間的に変動する最適化を採用するCPUやGPUと比較して、99百分位応答時間の保証がより優れている。
一部のワークロードで利用率が低いにもかかわらず、TPUの特化型アーキテクチャとメモリ階層設計により、推論ワークロードに対して一貫した高いパフォーマンスが実現されている。
28 MiBのオンチップメモリは、オフチップメモリアクセスを顕著に削減し、低遅延と高いエネルギー効率に寄与している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。