Skip to main content
QUICK REVIEW

[论文解读] Scalable Deep Learning on Distributed Infrastructures: Challenges, Techniques and Tools

Ruben Mayer, Hans‐Arno Jacobsen|arXiv (Cornell University)|Mar 27, 2019
Advanced Neural Network Applications参考文献 189被引用 45
一句话总结

对可扩展深度学习在分布式基础设施上的挑战、技术与工具的全面综述,包括对11个开源框架的比较以及对并行化、调度和数据管理的分析。

ABSTRACT

Deep Learning (DL) has had an immense success in the recent past, leading to state-of-the-art results in various domains such as image recognition and natural language processing. One of the reasons for this success is the increasing size of DL models and the proliferation of vast amounts of training data being available. To keep on improving the performance of DL, increasing the scalability of DL systems is necessary. In this survey, we perform a broad and thorough investigation on challenges, techniques and tools for scalable DL on distributed infrastructures. This incorporates infrastructures for DL, methods for parallel DL training, multi-tenant resource scheduling and the management of training and model data. Further, we analyze and compare 11 current open-source DL frameworks and tools and investigate which of the techniques are commonly implemented in practice. Finally, we highlight future research trends in DL systems that deserve further research.

研究动机与目标

  • 评估在分布式基础设施上运行可扩展深度学习的挑战(资源、数据迁移、弹性)。
  • 对并行DL训练的技术进行分类与综合(数据、模型、流水线、混合)及其权衡。
  • 评估开源DL框架和编排工具在实际可扩展性中的表现。
  • 讨论大型DL部署中的数据管理和多租户问题。
  • 突出开放研究挑战与DL系统未来方向。

提出的方法

  • 对可扩展DL系统的现有文献进行调查与综合。
  • 对并行化策略(数据、模型、流水线、混合)及其权衡进行分类。
  • 分析并比较11个开源DL框架和工具。
  • 讨论基础设施组件、硬件趋势和互连。
  • 在多租户环境中评估调度、弹性和数据管理。
  • 展望DL系统未来研究挑战。

实验结果

研究问题

  • RQ1在分布式基础设施上管理大规模DL的主要挑战是什么?
  • RQ2使用了哪些并行化技术(数据、模型、流水线、混合),它们的比较如何?
  • RQ3集中式与分散式参数同步方法在实践中的表现如何?
  • RQ4哪些开源框架和工具实现了可扩展DL技术,它们如何映射到硬件/基础设施?
  • RQ5在可扩展DL系统方面有哪些开放的研究方向和未来趋势?

主要发现

  • 深度学习的可扩展性取决于三个维度:模型大小、训练数据量和硬件基础设施的可用性。
  • 硬件异质性和大规模仓库式基础设施驱动对互连、优化和定制化DL运行时的需求。
  • 数据、模型和流水线并行(以及如Mesh-TensorFlow之类的混合方案)是跨分布式资源扩展训练的核心策略。
  • 参数同步架构(集中式参数服务器与去中心化的全规约)在吞吐量、容错性和部署复杂性方面存在权衡。
  • 广泛采纳实现可分布式DL技术的开源框架与工具,且在自动化优化与调度方面持续有研究。
  • 未来DL系统研究应聚焦于多租户、数据管理以及在共享集群和云环境中的端到端可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。