[论文解读] Automated Machine Learning on Big Data using Stochastic Algorithm Tuning
该论文提出Stoat,一种可扩展的随机贝叶斯优化框架,采用带Nyström近似的稀疏高斯过程,用于在大规模数据上自动进行机器学习超参数调优。通过在数据子集上评估性能,该方法实现了高效、噪声性与可扩展性的优化,在消费级硬件上一小时内完成收敛,且在真实世界的时间序列数据上达到最先进性能。
We introduce a means of automating machine learning (ML) for big data tasks, by performing scalable stochastic Bayesian optimisation of ML algorithm parameters and hyper-parameters. More often than not, the critical tuning of ML algorithm parameters has relied on domain expertise from experts, along with laborious hand-tuning, brute search or lengthy sampling runs. Against this background, Bayesian optimisation is finding increasing use in automating parameter tuning, making ML algorithms accessible even to non-experts. However, the state of the art in Bayesian optimisation is incapable of scaling to the large number of evaluations of algorithm performance required to fit realistic models to complex, big data. We here describe a stochastic, sparse, Bayesian optimisation strategy to solve this problem, using many thousands of noisy evaluations of algorithm performance on subsets of data in order to effectively train algorithms for big data. We provide a comprehensive benchmarking of possible sparsification strategies for Bayesian optimisation, concluding that a Nystrom approximation offers the best scaling and performance for real tasks. Our proposed algorithm demonstrates substantial improvement over the state of the art in tuning the parameters of a Gaussian Process time series prediction task on real, big data.
研究动机与目标
- 解决在全量数据似然评估计算不可行的大数据场景下,自动化机器学习超参数调优的挑战。
- 克服标准高斯过程贝叶斯优化在高评估频率下O(N³)的扩展瓶颈。
- 在噪声性、随机性评估(由于数据子集采样而常见)下实现稳健优化,且无需梯度信息。
- 开发一种实用、可扩展的框架,快速收敛于真实世界中复杂、多峰的优化问题。
- 证明在数据子集上的随机评估可有效建模为贝叶斯优化框架中的噪声观测,从而在高维多峰空间中找到全局最优解。
提出的方法
- 采用带Nyström近似的稀疏高斯过程,将O(N³)的推理成本降低至O(Nm²),其中m ≪ N为诱导点数量。
- 将随机数据子集上的性能评估视为潜在目标函数的噪声观测,从而实现随机优化。
- 使用概率代理模型(稀疏高斯过程)表示不确定性,并在每次迭代中指导采集函数的选择。
- 应用采集函数(如期望改进)以在搜索空间中平衡探索与利用。
- 通过Sobol序列预采样设计空间,以加速初始收敛并减少无效探索步骤。
- 将框架集成到顺序模型基于优化循环中,根据不确定性和期望改进动态选择新的评估点。
实验结果
研究问题
- RQ1基于稀疏高斯过程的随机贝叶斯优化能否扩展至大机器学习任务所需的数千次噪声评估?
- RQ2在真实世界机器学习超参数调优中,Nyström近似与其他稀疏化策略相比,在可扩展性与预测性能方面表现如何?
- RQ3在贝叶斯优化框架中,能否有效将数据子集上的随机评估建模为噪声观测,以在多峰、高维空间中找到全局最优解?
- RQ4所提方法在真实大规模数据集上是否在收敛速度与最终模型性能方面优于现有最先进方法?
- RQ5该方法在多大程度上可减少对昂贵全量数据似然评估的需求,同时保持高预测准确性?
主要发现
- Stoat在真实家庭电力使用数据上采用双周期核函数,测试对数似然达-7.25,优于[27]的单周期模型(对数似然:-7.40)和非周期性高斯过程(-9.22)。
- 尽管搜索空间具有多峰特性,该算法在一小时内收敛至约382天周期(约一年)和1.5天周期(日周期),运行于消费级笔记本电脑上。
- 预采样阶段(600个Sobol点)仅耗时5分钟,显著减少了无效探索步骤,加速了收敛。
- 每次贝叶斯优化循环耗时20至30秒,即使评估次数增至2,500次,也未出现明显性能下降。
- 该框架通过使用稀疏高斯过程代理模型有效建模来自数据子集的噪声性、随机性似然评估,展现出对噪声的鲁棒性与可扩展性。
- Nyström近似在所测试的稀疏化策略中,展现出计算效率与预测性能的最佳平衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。