Skip to main content
QUICK REVIEW

[논문 리뷰] In-Datacenter Performance Analysis of a Tensor Processing Unit

Norman P. Jouppi, Cliff Young|arXiv (Cornell University)|2017. 04. 16.
Parallel Computing and Optimization Techniques인용 수 23
한 줄 요약

이 논문은 2015년부터 데이터센터에서 운영 중인 신경망 추론을 위한 도메인 특화 암시회로(ASIC)인 Google의 고유 텐서 처리 장치(TPU)를 평가한다. 65,536개의 8비트 MAC 어레이와 결정론적 실행 모델을 활용하여 TPU는 현행 CPU 및 GPU 대비 15–30× 높은 성능과 30–80× 높은 TOPS/Watt 성능을 달성하며, GDDR5 메모리를 사용할 경우 최대 70× TOPS/Watt에 이를 수 있다.

ABSTRACT

Many architects believe that major improvements in cost-energy-performance must now come from domain-specific hardware. This paper evaluates a custom ASIC---called a Tensor Processing Unit (TPU)---deployed in datacenters since 2015 that accelerates the inference phase of neural networks (NN). The heart of the TPU is a 65,536 8-bit MAC matrix multiply unit that offers a peak throughput of 92 TeraOps/second (TOPS) and a large (28 MiB) software-managed on-chip memory. The TPU's deterministic execution model is a better match to the 99th-percentile response-time requirement of our NN applications than are the time-varying optimizations of CPUs and GPUs (caches, out-of-order execution, multithreading, multiprocessing, prefetching, ...) that help average throughput more than guaranteed latency. The lack of such features helps explain why, despite having myriad MACs and a big memory, the TPU is relatively small and low power. We compare the TPU to a server-class Intel Haswell CPU and an Nvidia K80 GPU, which are contemporaries deployed in the same datacenters. Our workload, written in the high-level TensorFlow framework, uses production NN applications (MLPs, CNNs, and LSTMs) that represent 95% of our datacenters' NN inference demand. Despite low utilization for some applications, the TPU is on average about 15X - 30X faster than its contemporary GPU or CPU, with TOPS/Watt about 30X - 80X higher. Moreover, using the GPU's GDDR5 memory in the TPU would triple achieved TOPS and raise TOPS/Watt to nearly 70X the GPU and 200X the CPU.

연구 동기 및 목표

  • 2015년부터 생산 환경의 데이터센터에 구축된 고유의 ASIC인 텐서 처리 장치(TPU)의 성능, 효율성, 확장성 평가.
  • 머신러닝 추론 워크로드에서 비용, 에너지, 성능 향상을 위한 도메인 특화 하드웨어의 증가하는 필요성 해결.
  • 실제 생산 워크로드를 기반으로 현행 서버급 CPU 및 GPU와 TPU의 성능 및 효율성 비교.
  • 캐시 기반의 시간에 따라 변하는 최적화 기법을 사용하는 일반 목적 프로세서와는 달리, 결정론적 실행과 소프트웨어 관리 메모리가 저지연 시간 보장을 더 잘 제공함을 입증.

제안 방법

  • 65,536개의 8비트 곱셈-누적(MAC) 유닛을 갖춘 도메인 특화 ASIC 설계로 최대 92 TOPS의 처리량 달성.
  • 오프칩 메모리 대역폭과 지연 시간을 줄이기 위해 대용량(28 MiB), 소프트웨어 관리 온칩 메모리 구현.
  • 캐싱, 순서 뒤바꿈 실행, 멀티스레딩과 같은 시간에 따라 변하는 최적화를 피하는 결정론적 실행 모델 도입.
  • 텐서플로 프레임워크에서 유래한 실제 생산 워크로드(MLP, CNN, LSTM 포함)를 사용한 평가로, 데이터센터 추론 수요의 95%를 대표.
  • 동일한 데이터센터 조건과 워크로드 구성에서 인텔 허슬 CPU 및 엔비디아 K80 GPU와의 벤치마킹.
  • TOPS, TOPS/Watt, 99번째 백분위수 응답 시간 등의 지표를 사용한 성능 및 에너지 효율성 분석.

실험 결과

연구 질문

  • RQ1신경망 추론 워크로드에서 TPU의 성능 및 에너지 효율성은 현행 CPU 및 GPU와 비교해 어떻게 되는가?
  • RQ2CPU 및 GPU의 동적 최적화 기법과는 달리, TPU의 결정론적 실행 모델은 99번째 백분위수 응답 시간 향상에 얼마나 기여하는가?
  • RQ3TPU의 HBM2 메모리를 GDDR5로 교체할 경우 성능 향상은 어느 정도이며, 이는 TOPS 및 TOPS/Watt에 어떤 영향을 미치는가?
  • RQ4일부 응용 프로그램에서 상대적으로 낮은 활용도를 보임에도 불구하고 TPU가 어떻게 높은 처리량과 효율성을 달성하는가?
  • RQ5소프트웨어가 관리하는 28 MiB 온칩 메모리는 TPU 아키텍처에서 성능 및 에너지 효율성 향상에 어떻게 기여하는가?

주요 결과

  • TPU는 실제 생산 워크로드에서 현행 인텔 허슬 CPU 및 엔비디아 K80 GPU 대비 15–30× 높은 성능을 달성한다.
  • CPU 및 GPU 대비 TPU는 TOPS/Watt 기준 30–80× 높은 에너지 효율성을 보이며, 뛰어난 에너지 효율성을 입증한다.
  • TPU의 HBM2 메모리를 GDDR5로 교체할 경우, 도달 가능한 TOPS가 3배 증가하고, GPU 대비 약 70×, CPU 대비 약 200×의 TOPS/Watt를 확보할 수 있다.
  • TPU의 결정론적 실행 모델은 시간에 따라 변하는 최적화 기법을 사용하는 CPU 및 GPU보다 더 우수한 99번째 백분위수 응답 시간 보장을 제공한다.
  • 일부 워크로드에서 낮은 활용도를 보임에도 불구하고, TPU의 전용 아키텍처와 메모리 계층은 추론 워크로드에 대해 일관된 고성능을 제공한다.
  • 28 MiB 온칩 메모리는 오프칩 메모리 액세스를 크게 줄여 저지연 시간과 고에너지 효율성에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.