Skip to main content
QUICK REVIEW

[论文解读] Exascale deep learning for climate analytics

Thorsten Kurth, Sean Treichler|arXiv (Cornell University)|Nov 11, 2018
Solar Radiation and Photovoltaics参考文献 26被引用 67
一句话总结

本文提出了一种可扩展的深度学习框架,用于在exascale系统上使用Tiramisu和DeepLabv3+网络检测气候数据中的极端天气模式。该框架在27,360块V100 GPU上利用FP16 Tensor Cores实现了999.0 PF/s的持续吞吐量,展示了接近理想的并行效率和exascale性能,适用于气候分析。

ABSTRACT

We extract pixel-level masks of extreme weather patterns using variants of Tiramisu and DeepLabv3+ neural networks. We describe improvements to the software frameworks, input pipeline, and the network training algorithms necessary to efficiently scale deep learning on the Piz Daint and Summit systems. The Tiramisu network scales to 5300 P100 GPUs with a sustained throughput of 21.0 PF/s and parallel efficiency of 79.0%. DeepLabv3+ scales up to 27360 V100 GPUs with a sustained throughput of 325.8 PF/s and a parallel efficiency of 90.7% in single precision. By taking advantage of the FP16 Tensor Cores, a half-precision version of the DeepLabv3+ network achieves a peak and sustained throughput of 1.13 EF/s and 999.0 PF/s respectively.

研究动机与目标

  • 实现大规模气候数据集中极端天气模式的像素级分割。
  • 优化深度学习框架和训练流水线,以适用于Piz Daint和Summit等exascale GPU系统。
  • 在数万台GPU上实现高并行效率和持续吞吐量,以支持气候分析工作负载。
  • 利用FP16 Tensor Cores加速深度学习模型在气候数据中的推理和训练。

提出的方法

  • 针对气候数据中的极端天气模式像素级分割,适配了Tiramisu和DeepLabv3+神经网络。
  • 优化了软件框架和输入流水线,以在GPU集群上高效处理大规模气候数据。
  • 实现了分布式训练算法,可在最多27,360块V100 GPU上扩展,通信开销极低。
  • 利用FP16 Tensor Cores加速计算,在峰值和持续吞吐量上分别达到1.13 EF/s和999.0 PF/s。
  • DeepLabv3+在单精度下实现90.7%的高并行效率,Tiramisu在混合精度下实现79.0%的并行效率。
  • 将Tiramisu扩展至5,300块P100 GPU,实现21.0 PF/s的持续吞吐量和79.0%的并行效率。

实验结果

研究问题

  • RQ1像Tiramisu和DeepLabv3+这样的深度学习模型能否在exascale GPU系统上有效扩展,用于气候模式检测?
  • RQ2在数万台GPU上训练这些模型时,可实现的并行效率和吞吐量水平如何?
  • RQ3在气候分析工作负载中,利用FP16 Tensor Cores对性能和可扩展性有何影响?
  • RQ4为在大规模GPU集群上维持高吞吐量,需要哪些系统级优化?
  • RQ5所提出的流水线能否应对大规模气候数据集的I/O和计算需求?

主要发现

  • Tiramisu在5,300块P100 GPU上实现21.0 PF/s的持续吞吐量和79.0%的并行效率。
  • DeepLabv3+在27,360块V100 GPU上实现325.8 PF/s的持续吞吐量,单精度下并行效率达90.7%。
  • 经FP16优化的DeepLabv3+在相同硬件上达到1.13 EF/s的峰值吞吐量和999.0 PF/s的持续吞吐量。
  • 系统表现出接近理想的扩展效率,表明负载均衡良好且通信开销低。
  • 优化的输入流水线和软件堆栈实现了exascale规模下高效的数据供给和模型训练。
  • 结果证实了使用exascale深度学习实现实时、高分辨率气候模式分割的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。