QUICK REVIEW

[논문 리뷰] In-Datacenter Performance Analysis of a Tensor Processing Unit

Norman P. Jouppi, Cliff Young|arXiv (Cornell University)|2017. 04. 16.

Parallel Computing and Optimization Techniques인용 수 23

한 줄 요약

이 논문은 2015년부터 데이터센터에서 운영 중인 신경망 추론을 위한 도메인 특화 암시회로(ASIC)인 Google의 고유 텐서 처리 장치(TPU)를 평가한다. 65,536개의 8비트 MAC 어레이와 결정론적 실행 모델을 활용하여 TPU는 현행 CPU 및 GPU 대비 15–30× 높은 성능과 30–80× 높은 TOPS/Watt 성능을 달성하며, GDDR5 메모리를 사용할 경우 최대 70× TOPS/Watt에 이를 수 있다.

ABSTRACT

Many architects believe that major improvements in cost-energy-performance must now come from domain-specific hardware. This paper evaluates a custom ASIC---called a Tensor Processing Unit (TPU)---deployed in datacenters since 2015 that accelerates the inference phase of neural networks (NN). The heart of the TPU is a 65,536 8-bit MAC matrix multiply unit that offers a peak throughput of 92 TeraOps/second (TOPS) and a large (28 MiB) software-managed on-chip memory. The TPU's deterministic execution model is a better match to the 99th-percentile response-time requirement of our NN applications than are the time-varying optimizations of CPUs and GPUs (caches, out-of-order execution, multithreading, multiprocessing, prefetching, ...) that help average throughput more than guaranteed latency. The lack of such features helps explain why, despite having myriad MACs and a big memory, the TPU is relatively small and low power. We compare the TPU to a server-class Intel Haswell CPU and an Nvidia K80 GPU, which are contemporaries deployed in the same datacenters. Our workload, written in the high-level TensorFlow framework, uses production NN applications (MLPs, CNNs, and LSTMs) that represent 95% of our datacenters' NN inference demand. Despite low utilization for some applications, the TPU is on average about 15X - 30X faster than its contemporary GPU or CPU, with TOPS/Watt about 30X - 80X higher. Moreover, using the GPU's GDDR5 memory in the TPU would triple achieved TOPS and raise TOPS/Watt to nearly 70X the GPU and 200X the CPU.

연구 동기 및 목표

2015년부터 생산 환경의 데이터센터에 구축된 고유의 ASIC인 텐서 처리 장치(TPU)의 성능, 효율성, 확장성 평가.
머신러닝 추론 워크로드에서 비용, 에너지, 성능 향상을 위한 도메인 특화 하드웨어의 증가하는 필요성 해결.
실제 생산 워크로드를 기반으로 현행 서버급 CPU 및 GPU와 TPU의 성능 및 효율성 비교.
캐시 기반의 시간에 따라 변하는 최적화 기법을 사용하는 일반 목적 프로세서와는 달리, 결정론적 실행과 소프트웨어 관리 메모리가 저지연 시간 보장을 더 잘 제공함을 입증.

제안 방법

65,536개의 8비트 곱셈-누적(MAC) 유닛을 갖춘 도메인 특화 ASIC 설계로 최대 92 TOPS의 처리량 달성.
오프칩 메모리 대역폭과 지연 시간을 줄이기 위해 대용량(28 MiB), 소프트웨어 관리 온칩 메모리 구현.
캐싱, 순서 뒤바꿈 실행, 멀티스레딩과 같은 시간에 따라 변하는 최적화를 피하는 결정론적 실행 모델 도입.
텐서플로 프레임워크에서 유래한 실제 생산 워크로드(MLP, CNN, LSTM 포함)를 사용한 평가로, 데이터센터 추론 수요의 95%를 대표.
동일한 데이터센터 조건과 워크로드 구성에서 인텔 허슬 CPU 및 엔비디아 K80 GPU와의 벤치마킹.
TOPS, TOPS/Watt, 99번째 백분위수 응답 시간 등의 지표를 사용한 성능 및 에너지 효율성 분석.

실험 결과

연구 질문

RQ1신경망 추론 워크로드에서 TPU의 성능 및 에너지 효율성은 현행 CPU 및 GPU와 비교해 어떻게 되는가?
RQ2CPU 및 GPU의 동적 최적화 기법과는 달리, TPU의 결정론적 실행 모델은 99번째 백분위수 응답 시간 향상에 얼마나 기여하는가?
RQ3TPU의 HBM2 메모리를 GDDR5로 교체할 경우 성능 향상은 어느 정도이며, 이는 TOPS 및 TOPS/Watt에 어떤 영향을 미치는가?
RQ4일부 응용 프로그램에서 상대적으로 낮은 활용도를 보임에도 불구하고 TPU가 어떻게 높은 처리량과 효율성을 달성하는가?
RQ5소프트웨어가 관리하는 28 MiB 온칩 메모리는 TPU 아키텍처에서 성능 및 에너지 효율성 향상에 어떻게 기여하는가?

주요 결과

TPU는 실제 생산 워크로드에서 현행 인텔 허슬 CPU 및 엔비디아 K80 GPU 대비 15–30× 높은 성능을 달성한다.
CPU 및 GPU 대비 TPU는 TOPS/Watt 기준 30–80× 높은 에너지 효율성을 보이며, 뛰어난 에너지 효율성을 입증한다.
TPU의 HBM2 메모리를 GDDR5로 교체할 경우, 도달 가능한 TOPS가 3배 증가하고, GPU 대비 약 70×, CPU 대비 약 200×의 TOPS/Watt를 확보할 수 있다.
TPU의 결정론적 실행 모델은 시간에 따라 변하는 최적화 기법을 사용하는 CPU 및 GPU보다 더 우수한 99번째 백분위수 응답 시간 보장을 제공한다.
일부 워크로드에서 낮은 활용도를 보임에도 불구하고, TPU의 전용 아키텍처와 메모리 계층은 추론 워크로드에 대해 일관된 고성능을 제공한다.
28 MiB 온칩 메모리는 오프칩 메모리 액세스를 크게 줄여 저지연 시간과 고에너지 효율성에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.