QUICK REVIEW

[논문 리뷰] Benchmarking the Performance and Power of AI Accelerators for AI Training

Yuxin Wang, Qiang Wang|arXiv (Cornell University)|2019. 09. 15.

Advanced Neural Network Applications참고 문헌 23인용 수 14

한 줄 요약

이 논문은 다양한 딥러닝 워크로드, 즉 CNN, LSTMs, Deep Speech 2, 및 Transformers를 대상으로 주요 AI 가속기—Intel CPU, NVIDIA GPU, AMD GPU, Google TPU—의 성능 및 에너지 효율성을 벤치마킹한다. 하드웨어 설계, 벤더 최적화 소프트웨어 라이브러리, 딥러닝 프레임워크의 영향으로 인해 훈련 시간과 에너지 소비에 상당한 차이가 있음을 드러내며, 하드웨어 선택 및 소프트웨어 최적화에 실질적인 통찰을 제공한다.

ABSTRACT

Deep learning has become widely used in complex AI applications. Yet, training a deep neural network (DNNs) model requires a considerable amount of calculations, long running time, and much energy. Nowadays, many-core AI accelerators (e.g., GPUs and TPUs) are designed to improve the performance of AI training. However, processors from different vendors perform dissimilarly in terms of performance and energy consumption. To investigate the differences among several popular off-the-shelf processors (i.e., Intel CPU, NVIDIA GPU, AMD GPU, and Google TPU) in training DNNs, we carry out a comprehensive empirical study on the performance and energy efficiency of these processors by benchmarking a representative set of deep learning workloads, including computation-intensive operations, classical convolutional neural networks (CNNs), recurrent neural networks (LSTM), Deep Speech 2, and Transformer. Different from the existing end-to-end benchmarks which only present the training time, We try to investigate the impact of hardware, vendor's software library, and deep learning framework on the performance and energy consumption of AI training. Our evaluation methods and results not only provide an informative guide for end-users to select proper AI accelerators, but also expose some opportunities for the hardware vendors to improve their software library.

연구 동기 및 목표

주요 상용 AI 가속기의 딥 네트워크 훈련에서의 성능 및 에너지 효율성을 평가하고 비교하는 것.
하드웨어 아키텍처, 벤더 최적화 소프트웨어 라이브러리, 딥러닝 프레임워크가 훈련 효율성에 미치는 영향을 종합적으로 분석하는 것.
최종 사용자가 특정 워크로드에 최적화된 AI 가속기를 선택하는 데 도움이 되는 실증 데이터를 제공하는 것.
기존 하드웨어에서 성능 및 에너지 효율성을 향상시킬 수 있는 소프트웨어 라이브러리의 격차와 기회를 드러내는 것.

제안 방법

계산 집약적인 연산, CNN, LSTMs, Deep Speech 2, Transformers를 포함한 대표적인 딥러닝 워크로드 세트를 활용한 종합적인 실증 연구를 수행함.
Intel CPU, NVIDIA GPU, AMD GPU, Google TPU의 네 개 프로세서에서 훈련 시간과 에너지 소비를 측정함.
하드웨어와 소프트웨어 스택의 영향을 분리하기 위해 표준화된 딥러닝 프레임워크와 벤더 제공 소프트웨어 라이브러리를 사용함.
다양한 워크로드 간의 결과를 비교하여 성능 및 에너지 효율성의 변동성을 평가함.
전체 훈련 효율성에 기여하는 각 구성 요소—하드웨어, 소프트웨어 라이브러리, 프레임워크—의 기여도를 분석함.
공정한 비교를 보장하기 위해 통제된 실험 조건을 적용함.

실험 결과

연구 질문

RQ1다양한 딥러닝 워크로드에서 CPU, GPU, TPU 등 서로 다른 AI 가속기 간의 훈련 시간과 에너지 소비는 어떻게 비교되는가?
RQ2벤더 최적화 소프트웨어 라이브러리가 AI 훈련의 성능 및 에너지 효율성에 얼마나 큰 영향을 미치는가?
RQ3딥러닝 프레임워크의 차이가 AI 가속기의 성능 및 전력 소비에 어떻게 영향을 미치는가?
RQ4특정 신경망 아키텍처에 대해 어떤 하드웨어-소프트웨어 조합이 가장 높은 성능 대비 에너지 비용 비율을 제공하는가?

주요 결과

AI 가속기 간에 뚜렷한 성능 차이가 존재하며, 특히 Transformers와 같은 워크로드에서는 TPU가 뛰어난 훈련 속도를 보임.
NVIDIA GPU는 고도로 최적화된 cuDNN 라이브러리 덕분에 많은 CNN 및 LSTM 워크로드에서 최고의 성능 대비 에너지 비용 비율을 확보함.
AMD GPU는 대부분의 벤치마크에서 NVIDIA 및 TPU와 비교해 성능 대비 높은 에너지 소비를 보이며, 특히 성능 대비 효율성이 열 劣함.
딥러닝 프레임워크 선택이 훈련 시간과 에너지 소비에 측정 가능한 영향을 미치며, 특히 최적화되지 않은 소프트웨어 라이브러리와 조합될 경우 뚜렷한 영향을 미침.
벤더 최적화 소프트웨어 라이브러리가 성능 향상에 상당한 기여를 하며, NVIDIA의 cuDNN과 Google의 XLA는 일반 구현 대비 뚜렷한 향상을 보임.
에너지 효율성은 워크로드에 따라 상당히 다름. 특히 Transformers와 계산 집약적인 연산 워크로드에서 하드웨어 플랫폼 간 결과가 가장 뚜렷하게 다름.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.