[论文解读] MLPerf Training Benchmark
MLPerf 训练基准提供一个全面的端到端 ML 训练基准,以在多轮与工作负载中公平评估系统性能,同时考虑准确性、随机性和软件多样性。
Machine learning (ML) needs industry-standard performance benchmarks to support design and competitive evaluation of the many emerging software and hardware solutions for ML. But ML training presents three unique benchmarking challenges absent from other domains: optimizations that improve training throughput can increase the time to solution, training is stochastic and time to solution exhibits high variance, and software and hardware systems are so diverse that fair benchmarking with the same binary, code, and even hyperparameters is difficult. We therefore present MLPerf, an ML benchmark that overcomes these challenges. Our analysis quantitatively evaluates MLPerf's efficacy at driving performance and scalability improvements across two rounds of results from multiple vendors.
研究动机与目标
- 定义一个具有代表性的端到端 ML 训练基准套件,覆盖多样的工作负载、模型和优化器。
- 建立参考实现和等效超参数,以实现公平比较。
- 引入计时规则和质量目标,以在保持严格性的同时尽量减少随机性影响。
- 通过公开提交代码和训练日志来促进可重复性。
- 通过工作组治理结构促进商业和研究社区之间的协作。
提出的方法
- 策划一个涵盖视觉、语言、推荐与强化学习的七任务基准套件。
- 将 time-to-train 作为主要性能指标,以同时捕捉速度与准确性。
- 为每个基准指定接近最新水平的质量阈值,并提供参考实现(PyTorch 或 TensorFlow)。
- 定义排除非代表性开销(如初始化和数据重新格式化)的计时规则,设有 20 分钟的模型创建容许时间。
- 要求对每个基准进行多次运行以稳定结果,在去除最快和最慢的几次后报告平均值。
- 在受控约束下提供可修改的超参数,以在系统优化与跨尺度公平比较之间取得平衡。
实验结果
研究问题
- RQ1ML 基准如何在端到端 ML 训练中公平比较多样化的硬件和软件栈?
- RQ2应包含哪些工作负载和模型类型以反映真实世界的 ML 训练,同时实现跨系统的公平比较?
- RQ3优化对不同规模和精度下的模型质量、训练时间和收敛性的影响如何?
- RQ4哪些规则与治理最能确保跨轮次与分区的可重复性和公平参与?
主要发现
- MLPerf 将工作负载的广度与端到端计时和质量目标结合起来,以应对 ML 训练中的吞吐量、准确性和随机性。
- 该基准强制执行参考实现和等效超参数,以确保不同系统之间的公平比较。
- MLPerf 使用排除设置开销并允许有限的模型创建时间的计时规则,以反映工业规模的训练。
- 对每个基准进行多次运行以缓解逐次方差并产生稳定结果,且每个任务有具体的运行次数要求。
- 两轮(v0.5 和 v0.6)评估了各厂商之间的进展,展示了基准覆盖率和参与度的演变。
- 提交将进行合规性审核,并按分区(open/closed)和系统类别(available/preview/research)报告,以促进公平和包容性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。