[论文解读] Benchmarking the Performance and Power of AI Accelerators for AI Training
本文对主流AI加速器——英特尔CPU、英伟达GPU、AMD GPU和谷歌TPU——在多种深度学习工作负载(包括CNN、LSTM、Deep Speech 2和Transformer)上的性能与能效进行了基准测试。研究揭示了由于硬件设计、厂商优化库以及深度学习框架的差异,导致训练时间和能耗存在显著差异,为硬件选型与软件优化提供了可操作的洞察。
Deep learning has become widely used in complex AI applications. Yet, training a deep neural network (DNNs) model requires a considerable amount of calculations, long running time, and much energy. Nowadays, many-core AI accelerators (e.g., GPUs and TPUs) are designed to improve the performance of AI training. However, processors from different vendors perform dissimilarly in terms of performance and energy consumption. To investigate the differences among several popular off-the-shelf processors (i.e., Intel CPU, NVIDIA GPU, AMD GPU, and Google TPU) in training DNNs, we carry out a comprehensive empirical study on the performance and energy efficiency of these processors by benchmarking a representative set of deep learning workloads, including computation-intensive operations, classical convolutional neural networks (CNNs), recurrent neural networks (LSTM), Deep Speech 2, and Transformer. Different from the existing end-to-end benchmarks which only present the training time, We try to investigate the impact of hardware, vendor's software library, and deep learning framework on the performance and energy consumption of AI training. Our evaluation methods and results not only provide an informative guide for end-users to select proper AI accelerators, but also expose some opportunities for the hardware vendors to improve their software library.
研究动机与目标
- 评估并比较主流现成AI加速器在训练深度神经网络时的性能与能效。
- 识别硬件架构、厂商优化软件库以及深度学习框架如何共同影响训练效率。
- 提供实证数据,指导终端用户根据特定工作负载选择最优AI加速器。
- 揭示当前软件库在现有硬件上提升性能与能效方面的差距与机遇。
提出的方法
- 采用代表性深度学习工作负载集开展全面的实证研究:计算密集型操作、CNN、LSTM、Deep Speech 2和Transformer。
- 测量四种处理器(英特尔CPU、英伟达GPU、AMD GPU和谷歌TPU)的训练时间和能耗。
- 使用标准化深度学习框架及厂商提供的软件库,以隔离硬件与软件栈的影响。
- 在不同工作负载间对比结果,评估性能与能效的差异性。
- 分析各组件(硬件、软件库、框架)对整体训练效率的贡献。
- 采用受控实验条件,确保不同厂商与平台之间的公平比较。
实验结果
研究问题
- RQ1在多种深度学习工作负载下,不同AI加速器(CPU、GPU、TPU)在训练时间和能耗方面如何比较?
- RQ2厂商优化的软件库在多大程度上影响AI训练的性能与能效?
- RQ3深度学习框架的差异如何影响AI加速器的性能与功耗?
- RQ4哪些硬件-软件组合在特定神经网络架构上实现了最佳性能-能效比?
主要发现
- AI加速器之间存在显著的性能差异,TPU在Transformer等特定工作负载上表现出卓越的训练速度。
- 对于许多CNN和LSTM工作负载,英伟达GPU凭借高度优化的cuDNN库实现了最佳性能-能效比。
- AMD GPU在多数基准测试中表现出相对较高的能耗,尤其与英伟达和TPU相比。
- 深度学习框架的选择对训练时间和能耗有可测量的影响,尤其在与次优软件库结合时更为明显。
- 厂商优化的软件库对性能提升贡献显著,英伟达的cuDNN和谷歌的XLA相比通用实现表现出显著改进。
- 能效在不同工作负载间差异显著,Transformer和计算密集型操作在不同硬件平台上的结果差异最大。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。