Skip to main content
QUICK REVIEW

[论文解读] Massively Distributed SGD: ImageNet/ResNet-50 Training in a Flash

Hiroaki Mikami, Hisahiro Suganuma|arXiv (Cornell University)|Nov 13, 2018
Advanced Neural Network Applications参考文献 16被引用 73
一句话总结

本文展示了在 ABCI 集群的 Neural Network Libraries (NNL) 中,通过 batch-size control、label smoothing 和 2D-Torus all-reduce 实现大规模的 ImageNet/ResNet-50 训练,训练时间为 122 秒。

ABSTRACT

Scaling the distributed deep learning to a massive GPU cluster level is challenging due to the instability of the large mini-batch training and the overhead of the gradient synchronization. We address the instability of the large mini-batch training with batch-size control and label smoothing. We address the overhead of the gradient synchronization with 2D-Torus all-reduce. Specifically, 2D-Torus all-reduce arranges GPUs in a logical 2D grid and performs a series of collective operation in different orientations. These two techniques are implemented with Neural Network Libraries (NNL). We have successfully trained ImageNet/ResNet-50 in 122 seconds without significant accuracy loss on ABCI cluster.

研究动机与目标

  • 解决大批量训练的不稳定性。
  • 降低在大型 GPU 集群中的梯度同步开销。
  • 提出实用技术以实现快速、可扩展的 CNN 训练。
  • 在大规模集群上展示高速度的 ImageNet/ResNet-50 训练。

提出的方法

  • 使用 batch-size control 来稳定大型 mini-batch 训练。
  • 应用 label smoothing 以在大型批量下提高泛化能力。
  • 实现 2D-Torus all-reduce,将 GPU 组织成一个 2D 网格以实现高效的全局通信。
  • 利用 Neural Network Libraries (NNL) 实现上述技术。
  • 使用 ImageNet 数据集和 ResNet-50 架构进行评估。
  • 报告在 ABCI 集群上的训练时间和准确性影响。

实验结果

研究问题

  • RQ1如何在大规模分布式 SGD 下实现大规模 mini-batch 训练的稳定性?
  • RQ2是否可以在规模化 GPU 集群中有效降低梯度同步开销?
  • RQ3所提出的技术在 ImageNet/ResNet-50 训练中能取得何种性能提升?
  • RQ4在分布式环境中应用 batch-size control 和 label smoothing 时,速度与准确性之间的权衡如何?

主要发现

  • 在 ABCI 集群上以 122 秒训练 ImageNet/ResNet-50,且没有显著的准确性损失。
  • batch-size control 和 label smoothing 可以缓解超大型 mini-batch 带来的不稳定性。
  • 2D-Torus all-reduce 通过将 GPU 组织成 2D 网格来实现高效的全局通信,从而降低梯度同步开销。
  • 在 Neural Network Libraries (NNL) 中实现上述技术,使分布式 SGD 可扩展。
  • 展示了在大规模数据集上实现大规模分布式 CNN 训练的实际路径。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。