Skip to main content
QUICK REVIEW

[论文解读] Critical Hyper-Parameters: No Random, No Cry

Olivier Bousquet, Sylvain Gelly|arXiv (Cornell University)|Jun 10, 2017
Advanced Multi-Objective Optimization Algorithms参考文献 14被引用 30
一句话总结

本文提出随机打乱的哈默斯利(S-H)序列作为深度学习超参数优化中随机搜索和网格搜索的更优替代方案。通过利用低差异序列确保超参数空间的均匀覆盖,S-H减少了找到最优设置所需的试验次数,在单次试验和贝叶斯优化设置中均优于随机搜索和拉丁超立方采样(LHS),尤其在中等至大预算下表现更优。

ABSTRACT

The selection of hyper-parameters is critical in Deep Learning. Because of the long training time of complex models and the availability of compute resources in the cloud, "one-shot" optimization schemes - where the sets of hyper-parameters are selected in advance (e.g. on a grid or in a random manner) and the training is executed in parallel - are commonly used. It is known that grid search is sub-optimal, especially when only a few critical parameters matter, and suggest to use random search instead. Yet, random search can be "unlucky" and produce sets of values that leave some part of the domain unexplored. Quasi-random methods, such as Low Discrepancy Sequences (LDS) avoid these issues. We show that such methods have theoretical properties that make them appealing for performing hyperparameter search, and demonstrate that, when applied to the selection of hyperparameters of complex Deep Learning models (such as state-of-the-art LSTM language models and image classification models), they yield suitable hyperparameters values with much fewer runs than random search. We propose a particularly simple LDS method which can be used as a drop-in replacement for grid or random search in any Deep Learning pipeline, both as a fully one-shot hyperparameter search or as an initializer in iterative batch optimization.

研究动机与目标

  • 解决随机搜索和网格搜索在超参数优化中的局限性,其中随机搜索可能因运气不佳而错过关键区域,而网格搜索则在冗余评估上浪费资源。
  • 评估低差异序列(LDS)在深度学习模型的一次性与迭代式超参数优化中的理论与实证性能。
  • 识别一种稳健的、可直接替换随机或网格搜索的方案,以更少的评估次数实现对超参数空间的更好覆盖。
  • 评估LDS作为贝叶斯优化框架中初始化方法的有效性,用于超参数调优。
  • 提供一个实用的开源库,便于在深度学习流程中采用LDS。

提出的方法

  • 本文使用随机打乱的哈默斯利(S-H)序列,一种低差异序列(LDS)类型,生成在搜索空间中均匀分布的超参数配置。
  • 将一次性优化形式化为一种非迭代方法,即预先选定超参数集并并行训练,性能通过优化误差衡量。
  • 理论分析聚焦于体积分散度和随机分散度,以量化序列对定义域的覆盖程度,表明LDS能最小化最大未探索区域。
  • 实证评估在多个基准函数和深度学习模型上对比S-H与随机搜索、拉丁超立方采样(LHS)以及贝叶斯优化中的悲观幻想法。
  • 该方法既作为独立的一次性搜索应用,也作为批量迭代贝叶斯优化中的初始化器,结果以目标函数值的比值形式报告。
  • 作者提出LDS的一种稳健变体——带随机偏移的随机打乱哈默斯利,避免了其他LDS变体(如Sobol或未打乱的Halton)的缺陷。

实验结果

研究问题

  • RQ1在深度学习超参数调优中,低差异序列(LDS)能否在更少评估次数下,以更低的优化误差超越随机搜索?
  • RQ2当仅有少数超参数对模型性能至关重要时,LDS与网格搜索相比表现如何?
  • RQ3LDS能否作为迭代式贝叶斯优化中的有效初始化方法,尤其与随机或LHS采样相比?
  • RQ4LDS变体的选择是否显著影响性能?哪种变体在不同设置下最为稳健?
  • RQ5参数排序对LDS性能有何影响,尤其当某些超参数比其他参数更具影响力时?

主要发现

  • 随机打乱的哈默斯利(S-H)序列在一次性超参数优化中持续优于随机搜索和LHS,显著减少了找到最优配置所需的试验次数。
  • 在足够采样下,S-H在ε距离内实现100%全局最优解的成功率,而随机搜索可能因运气不佳而失败。
  • 在贝叶斯优化中,S-H初始化的方法优于随机和LHS初始化,且在高维空间和中等预算下,性能可匹配或超越熵搜索和悲观幻想法。
  • 对于小预算(如<10),LHS可能优于S-H,但S-H在大多数实际设置(预算≥10)下仍为更优选择。
  • LDS的理论收敛速率严格优于随机搜索,尤其在高置信度分位数下,且S-H对不良的超参数排序具有鲁棒性。
  • 研究证实,通常仅有少数超参数是关键的,而LDS通过最小化冗余评估高效探索这些区域。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。