QUICK REVIEW

[논문 리뷰] Benchmarking TPU, GPU, and CPU Platforms for Deep Learning

Yu Emma Wang, Gu-Yeon Wei|arXiv (Cornell University)|2019. 07. 24.

Parallel Computing and Optimization Techniques참고 문헌 48인용 수 230

한 줄 요약

본 논문은 매개변수화된 딥러닝 벤치마크인 ParaDnn을 소개하고, 엔드투엔드 FC, CNN, RNN 워크로드를 대상으로 TPU v2/v3, NVIDIA V100 GPU, 및 Intel Skylake CPU를 비교하여 플랫폼별 강점과 병목 현상을 밝힌다.

ABSTRACT

Training deep learning models is compute-intensive and there is an industry-wide trend towards hardware specialization to improve performance. To systematically benchmark deep learning platforms, we introduce ParaDnn, a parameterized benchmark suite for deep learning that generates end-to-end models for fully connected (FC), convolutional (CNN), and recurrent (RNN) neural networks. Along with six real-world models, we benchmark Google's Cloud TPU v2/v3, NVIDIA's V100 GPU, and an Intel Skylake CPU platform. We take a deep dive into TPU architecture, reveal its bottlenecks, and highlight valuable lessons learned for future specialized system design. We also provide a thorough comparison of the platforms and find that each has unique strengths for some types of models. Finally, we quantify the rapid performance improvements that specialized software stacks provide for the TPU and GPU platforms.

연구 동기 및 목표

작은 모델 샘플을 넘어선 심층 학습 하드웨어의 체계적이고 엔드투엔드 벤치마킹을 촉진한다.
FC, CNN, RNN 아키텍처를 아우르는 수천 개의 매개변수화된 엔드투엔드 모델을 생성하기 위해 ParaDnn을 제안한다.
ParaDnn과 실제 워크로드를 사용하여 TPU, GPU, CPU 플랫폼의 포괄적 비교를 제공한다.
향후 특수 하드웨어 및 소프트웨어 스택 최적화를 이끄는 아키텍처 및 소프트웨어 설계 인사이트를 식별한다.

제안 방법

매개변수화된 벤치마크 스위트인 ParaDnn을 소개하고, 엔드투엔드 FC, CNN, RNN 모델을 생성한다.
ParaDnn 워크로드를 여섯 개의 실제 모델과 결합하여 광범위한 벤치마크 세트를 만든다.
Google Cloud TPU v2/v3, NVIDIA V100 GPU, 그리고 Intel Skylake CPU 플랫폼을 평가한다.
계산, 메모리 대역폭, 다칩 오버헤드, 호스트-디바이스 균형 등을 포함한 TPU 아키텍처 병목 현상을 분석한다.
FLOPS 활용도, Roofline 분석, 및 연산 분해를 사용하여 모델 전반의 성능을 특성화한다.

실험 결과

연구 질문

RQ1다양한 엔드투엔드 모델에서 TPU v2/v3 성능을 제한하는 주요 병목 현상은 무엇인가?
RQ2ParaDnn으로 생성된 광범위한 DL 워크로드와 실제 워크로드에서 TPU, GPU, CPU 플랫폼은 어떻게 비교되는가?
RQ3모델 속성(예: 배치 크기, 너비, 임베딩 크기)이 하드웨어 활용도와 성능 병목 현상에 어떤 영향을 미치는가?
RQ4TPU 및 GPU 플랫폼에서 성능을 향상시킬 수 있는 소프트웨어 및 데이터 정밀도 전략은 무엇인가?

주요 결과

TPU 성능은 다수의 FC 및 CNN 워크로드에서 메모리 대역폭 및 칩 간 통신이 제약이지만, 배치 사이즈 확장에는 우수한 성능을 보인다.
TPU v3는 더 큰 메모리 용량과 더 높은 대역폭에 의해 단순한 FLOPS 증가를 넘어서 v2보다 상당한 속도 향상을 제공한다.
메모리 대역폭 한계와 데이터 인피드 병목이 TPU와 GPU 성능에 상당한 영향을 주며, 데이터 인피드 최적화가 주목할 만한 이득을 제공한다.
대형 배치 크기는 다칩 간 통신 오버헤드를 감소시킬 수 있으며, 모델 깊이(레이어 수)는 모델 파셜 병렬화나 파이프라이닝을 통해 활용되지 않은 병렬성 기회를 제공한다.
양자화 및 소프트웨어 스택 개선은 TPU와 GPU 플랫폼에서 의미 있는 성능 향상을 가져올 수 있으며, 컴파일러 및 커널 최적화를 통해 추가 이득이 가능하다.
가장 큰 완전 연결 모델은 메모리 제약으로 인해 CPU를 선호하는 경향이 있지만, 일부 CNN/RNN 워크로드는 아키텍처에 따라 TPU/GPU 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.