Skip to main content
QUICK REVIEW

[论文解读] ChainerMN: Scalable Distributed Deep Learning Framework

Takuya Akiba, Keisuke Fukuda|arXiv (Cornell University)|Oct 31, 2017
Advanced Neural Network Applications参考文献 6被引用 58
一句话总结

ChainerMN 将 Chainer 框架扩展为在最多 128 个 GPU 上实现同步数据并行分布式训练,达到高并行效率。它使用 NCCL 进行快速的 all-reduce,并提供从单节点 Chainer 代码的便捷移植路径。

ABSTRACT

One of the keys for deep learning to have made a breakthrough in various fields was to utilize high computing powers centering around GPUs. Enabling the use of further computing abilities by distributed processing is essential not only to make the deep learning bigger and faster but also to tackle unsolved challenges. We present the design, implementation, and evaluation of ChainerMN, the distributed deep learning framework we have developed. We demonstrate that ChainerMN can scale the learning process of the ResNet-50 model to the ImageNet dataset up to 128 GPUs with the parallel efficiency of 90%.

研究动机与目标

  • 为加速深度学习研究并处理如 ImageNet 这类大规模数据集,阐明可扩展分布式学习的需求。
  • 提供 Chainer 框架的分布式扩展(ChainerMN),在保留 Define-by-Run 灵活性的同时实现分布式训练。
  • 设计易于将现有 Chainer 程序移植到分布式执行的 API 与实现。
  • 在包含 ResNet-50 的 ImageNet 上的大型 GPU 集群上演示可扩展性与性能。

提出的方法

  • 采用基于 Allreduce 的梯度平均的同步数据并行训练,在工作节点之间进行。
  • 整合 NCCL 以优化跨 GPU 与跨节点的 Allreduce 通信。
  • 提供 Define-by-Run 友好的 API,最小化地扩展现有 Chainer 程序(Communicator、Multi-node Optimizer、Scatter)。
  • 用 Multi-node Optimizer 封装 Chainer 优化器,在参数更新前透明地交换梯度。
  • 通过 Scatter 将数据集分发到各进程的等份。
  • 在 128-GPU 集群上使用 ImageNet 的 ResNet-50 评估可扩展性。

实验结果

研究问题

  • RQ1ChainerMN 是否能够在大型模型和大型 GPU 集群上实现可扩展的同步数据并行训练?
  • RQ2在现实工作负载(ImageNet 的 ResNet-50)下扩展到 128 个 GPU,能够达到怎样的并行效率?
  • RQ3ChainerMN API 如何影响将现有 Chainer 代码移植到分布式环境的难易程度?
  • RQ4在此场景下使用 NCCL 提供的 Allreduce 能带来哪些性能收益?

主要发现

  • ChainerMN 可扩展到 128 个 GPU,具备较高的并行效率(相较单节点为 90%,相较单个 GPU 为 79%)。
  • 在 128 个 GPU 上,ChainerMN 在 ResNet-50/ImageNet 实验中实现了 101.32× 相对于单个 GPU 的加速。
  • 在不同配置下报告的并行效率仍然很高(较小规模为 88–92%,在 128 GPU 时为 79.16%)。
  • 设计在实现分布式执行的同时保留了 Chainer 的 Define-by-Run 灵活性,且代码改动最小化。
  • 使用 NCCL 提高了 all-reduce 通信的效率,推动了观测到的可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。