[论文解读] Descending through a Crowded Valley - Benchmarking Deep Learning Optimizers
本文在8个任务上对15种流行的深度学习优化器进行了大规模、开放基准测试,使用4个调理预算和4种学习率计划,未发现单一赢家,并显示针对不同任务的调优与默认设置均可获得具有竞争力的结果。
Choosing the optimizer is considered to be among the most crucial design decisions in deep learning, and it is not an easy one. The growing literature now lists hundreds of optimization methods. In the absence of clear theoretical guidance and conclusive empirical evidence, the decision is often made based on anecdotes. In this work, we aim to replace these anecdotes, if not with a conclusive ranking, then at least with evidence-backed heuristics. To do so, we perform an extensive, standardized benchmark of fifteen particularly popular deep learning optimizers while giving a concise overview of the wide range of possible choices. Analyzing more than $50,000$ individual runs, we contribute the following three points: (i) Optimizer performance varies greatly across tasks. (ii) We observe that evaluating multiple optimizers with default parameters works approximately as well as tuning the hyperparameters of a single, fixed optimizer. (iii) While we cannot discern an optimization method clearly dominating across all tested tasks, we identify a significantly reduced subset of specific optimizers and parameter choices that generally lead to competitive results in our experiments: Adam remains a strong contender, with newer methods failing to significantly and consistently outperform it. Our open-sourced results are available as challenging and well-tuned baselines for more meaningful evaluations of novel optimization methods without requiring any further computational efforts.
研究动机与目标
- 评估优化器选择和超参数调优如何影响深度学习中的训练性能。
- 为未来的优化器基准测试和元学习提供基于证据的开放基线。
- 确定更新的优化器是否优于 SGD/Adam,以及默认超参数是否足够。
- 为从业者在何时进行调优,或仅使用默认设置尝试多种优化器,提供指南。
提出的方法
- 从超过100个候选者的更大池中选择15个流行的一阶优化器。
- 在八个 DEEPOBS 问题上评估每个优化器,使用四个调优预算和四种学习率计划。
- 在预定义分布中通过随机搜索对小型、中型和大型预算进行超参数调优。
- 以最终测试精度作为主要性能度量,附加度量在补充材料中公布。
- 提供53,760 次训练运行,记录逐次迭代的损失以及验证/测试指标以用于元分析。
- 公布开源基线结果,以支持未来的优化器研究与基准测试。
实验结果
研究问题
- RQ1在广泛的深度学习任务中,是否存在支配性优化器?
- RQ2与固定默认值相比,超参数调优预算如何影响优化器性能?
- RQ3是否存在某些问题,其中特定优化器始终优于其他优化器?
- RQ4使用默认设置的多个优化器是否能够接近调优配置的性能?
- RQ5在缺乏任务特定知识的情况下,给从业者选择优化器能提供哪些指南?
主要发现
- 优化器性能高度依赖任务;没有单一方法在所有八个问题上占据主导地位。
- 在使用默认超参数评估多种优化器时,通常的性能大致相当于对单个优化器进行调优的结果。
- 未调优的学习率计划会带来一些提升,但效果因优化器和问题而异。
- ADAM 仍然是强有力的竞争者,较新方法在各任务上并未持续超越它。
- 一部分优化器(如 ADAM、ADABOUND、ADADELTA、RMSProp 等)经常处于前列,但结果因问题和预算而异。
- 开源结果(53,760 次运行)为未来的优化器评估提供了具有竞争力的基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。