Skip to main content
QUICK REVIEW

[论文解读] A System for Massively Parallel Hyperparameter Tuning

Liam Li, Kevin Jamieson|arXiv (Cornell University)|Oct 13, 2018
Machine Learning and Data Classification参考文献 35被引用 67
一句话总结

本论文提出 ASHA,一种异步、可扩展的超参数优化算法,通过积极提前停止表现差的配置以实现大规模并行,并讨论在 Determined AI 中的落地生产化。

ABSTRACT

Modern learning models are characterized by large hyperparameter spaces and long training times. These properties, coupled with the rise of parallel computing and the growing demand to productionize machine learning workloads, motivate the need to develop mature hyperparameter optimization functionality in distributed computing settings. We address this challenge by first introducing a simple and robust hyperparameter optimization algorithm called ASHA, which exploits parallelism and aggressive early-stopping to tackle large-scale hyperparameter optimization problems. Our extensive empirical results show that ASHA outperforms existing state-of-the-art hyperparameter optimization methods; scales linearly with the number of workers in distributed settings; and is suitable for massive parallelism, as demonstrated on a task with 500 workers. We then describe several design decisions we encountered, along with our associated solutions, when integrating ASHA in Determined AI's end-to-end production-quality machine learning system that offers hyperparameter tuning as a service.

研究动机与目标

  • 激发对生产级别的大规模并行超参数优化系统的需求。
  • 提出一个简单、鲁棒的算法(ASHA),利用并行性和积极的早停。
  • 在顺序和并行设置下,经验性地将 ASHA 与最先进方法进行比较。
  • 展示将 ASHA 集成到 ML 平台中的面向生产的设计决策。

提出的方法

  • 描述 Successive Halving (SHA) 及其在并行、大规模场景中的局限性。
  • 介绍 Asynchronous SHA (ASHA),在不等待完整阶段完成的情况下提升配置。
  • 提供包含提升与作业调度规则的 ASHA 的正式算法。
  • 在顺序与并行实验中,将 SHA/ASHA 与 PBT、Vizier、BOHB 及其他方法进行比较。
  • 展示 ASHA 在 NAS 风格和大规模语言模型调优中的适用性。

实验结果

研究问题

  • RQ1如何将 SHA 适应并行、大规模的场景,以最小化延迟并最大化吞吐?
  • RQ2在分布式设置中,异步提升策略(ASHA)是否优于同步 SHA 及其他基线?
  • RQ3ASHA 在 CNN NAS 任务、RNN NAS 任务和大规模语言建模任务中的表现如何?
  • RQ4在实际 ML 平台中部署 ASHA 需要哪些生产设计决策?
  • RQ5在实践中,积极提前停止与对错误提升的鲁棒性之间存在哪些权衡?

主要发现

  • ASHA 在多个基准测试中比同步 SHA 更快地发现配置,并优于 PBT、BOHB 和 Vizier。
  • ASHA 线性扩展,随工作节点数量增加而线性扩展,在分布式环境中实现显著加速。
  • ASHA 在 CNN 和 RNN 架构的 NAS 基准测试中优于替代方法,并提高困惑度与准确率指标。
  • 在多达 500 个工作节点的大规模语言模型调优中,ASHA 在大约 time(R) 的时间内找到良好配置,并且在目标困惑度上比 Vizier 快约 3 倍。
  • ASHA 的面向生产的设计改善了在真实 ML 平台中的可用性、自动缩放、调度和可重复性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。