[论文解读] Cost-aware Bayesian Optimization
引入 CArBO,一种基于成本的贝叶斯优化方法,优先在早期进行低成本评估,逐步转向更昂贵的评估,在固定成本预算下提升超参数搜索效果。
Bayesian optimization (BO) is a class of global optimization algorithms, suitable for minimizing an expensive objective function in as few function evaluations as possible. While BO budgets are typically given in iterations, this implicitly measures convergence in terms of iteration count and assumes each evaluation has identical cost. In practice, evaluation costs may vary in different regions of the search space. For example, the cost of neural network training increases quadratically with layer size, which is a typical hyperparameter. Cost-aware BO measures convergence with alternative cost metrics such as time, energy, or money, for which vanilla BO methods are unsuited. We introduce Cost Apportioned BO (CArBO), which attempts to minimize an objective function in as little cost as possible. CArBO combines a cost-effective initial design with a cost-cooled optimization phase which depreciates a learned cost model as iterations proceed. On a set of 20 black-box function optimization problems we show that, given the same cost budget, CArBO finds significantly better hyperparameter configurations than competing methods.
研究动机与目标
- 动机并解决现实世界超参数优化中迭代预算的贝叶斯优化与可变评估成本之间的不匹配。
- 开发一个黑箱成本感知的 BO 算法,在成本预算内最小化目标函数。
- 通过实证在顺序与批量设置下,CArBO 在 20 个 HPO 基准上优于标准 EI 与 EIpu。
提出的方法
- 提出一种性价比高的初始设计,在暖启动预算内最大化搜索空间覆盖(极大化填充准则)。
- 引入成本降温(EI-cool),随着预算的增加减小成本模型的影响,从 EIpu 转向 EI。
- 使用扭曲高斯过程成本模型来预测评估成本并输入到 EI-cool。
- 实现带有 fantasies 的批量 BO,以在批量大小上实现线性缩放。
- 提供默认初始设计预算 tau_init = tau/8,并证明对该选择的鲁棒性。
实验结果
研究问题
- RQ1贝叶斯优化如何调整以在固定成本预算下最小化目标,而非在固定迭代预算下?
- RQ2两部分策略(廉价初始设计加成本降温)是否在异构的 HPO 问题中提高成本效率和最终目标质量?
- RQ3在现实世界成本预算下,CArBO 与 EI 及 EIpu 在顺序和批量超参数优化中的比较?
- RQ4哪些低方差成本模型最能与成本感知 BO 配合,用于外推运行时(例如基于 flop 的线性模型)?
主要发现
| 基准 | 预算(s) | EI3 | EI7 | EI11 | EIpu3 | EIpu7 | EIpu11 | CArBO3 | CArBO7 | CArBO11 |
|---|---|---|---|---|---|---|---|---|---|---|
| KNN a1a | 150 | 0.133 (83) | 0.128 (149) | 0.126 (238) | 0.135 (121) | 0.128 (195) | 0.126 (318) | 0.133 (111) | 0.128 (250) | 0.128 (411) |
| KNN a3a | 300 | 0.121 (90) | 0.117 (184) | 0.115 (283) | 0.121 (116) | 0.117 (217) | 0.115 (331) | 0.119 (147) | 0.116 (354) | 0.115 (622) |
| KNN splice | 10 | 0.123 (143) | 0.107 (275) | 0.099 (411) | 0.120 (183) | 0.107 (361) | 0.102 (536) | 0.113 (161) | 0.103 (353) | 0.095 (537) |
| KNN w2a | 400 | 0.055 (83) | 0.052 (150) | 0.047 (206) | 0.056 (142) | 0.049 (277) | 0.048 (373) | 0.048 (77) | 0.046 (189) | 0.044 (314) |
| MLP a1a | 100 | 0.123 (50) | 0.122 (96) | 0.122 (133) | 0.128 (34) | 0.127 (72) | 0.126 (103) | 0.121 (119) | 0.119 (227) | 0.119 (344) |
| MLP a3a | 160 | 0.108 (40) | 0.108 (79) | 0.107 (114) | 0.110 (30) | 0.108 (62) | 0.108 (90) | 0.107 (97) | 0.106 (194) | 0.106 (296) |
| MLP splice | 50 | 0.051 (41) | 0.043 (84) | 0.041 (126) | 0.054 (32) | 0.052 (64) | 0.050 (92) | 0.038 (71) | 0.037 (145) | 0.036 (215) |
| MLP w2a | 200 | 0.024 (33) | 0.023 (69) | 0.022 (101) | 0.024 (27) | 0.023 (57) | 0.022 (84) | 0.023 (73) | 0.023 (152) | 0.023 (226) |
| SVM a1a | 20 | 0.120 (189) | 0.120 (395) | 0.120 (587) | 0.120 (218) | 0.120 (483) | 0.120 (753) | 0.120 (295) | 0.119 (663) | 0.119 (956) |
| SVM a3a | 30 | 0.109 (197) | 0.108 (418) | 0.108 (611) | 0.108 (256) | 0.107 (572) | 0.107 (913) | 0.107 (343) | 0.107 (722) | 0.106 (1019) |
| SVM splice | 4 | 0.114 (100) | 0.114 (191) | 0.113 (282) | 0.114 (127) | 0.113 (307) | 0.113 (425) | 0.113 (225) | 0.111 (540) | 0.111 (836) |
| SVM w2a | 90 | 0.023 (256) | 0.022 (570) | 0.022 (855) | 0.022 (304) | 0.021 (676) | 0.021 (1040) | 0.021 (356) | 0.021 (763) | 0.020 (1034) |
| DT a1a | 2.5 | 0.135 (150) | 0.132 (347) | 0.132 (541) | 0.135 (149) | 0.132 (347) | 0.132 (537) | 0.135 (150) | 0.132 (344) | 0.132 (540) |
| DT a3a | 2.5 | 0.132 (133) | 0.130 (300) | 0.129 (473) | 0.132 (135) | 0.129 (300) | 0.130 (464) | 0.131 (134) | 0.130 (304) | 0.128 (476) |
| DT splice | 2 | 0.029 (300) | 0.028 (645) | 0.026 (1032) | 0.029 (300) | 0.025 (655) | 0.027 (979) | 0.029 (332) | 0.027 (664) | 0.025 (985) |
| DT w2a | 8 | 0.055 (77) | 0.077 (177) | 0.078 (277) | 0.052 (80) | 0.078 (181) | 0.078 (279) | 0.054 (78) | 0.054 (173) | 0.052 (272) |
| RF a1a | 30 | 0.117 (68) | 0.116 (137) | 0.116 (214) | 0.116 (133) | 0.115 (270) | 0.114 (373) | 0.116 (160) | 0.114 (272) | 0.114 (359) |
| RF a3a | 35 | 0.110 (80) | 0.108 (170) | 0.108 (248) | 0.109 (118) | 0.109 (243) | 0.108 (337) | 0.109 (143) | 0.108 (252) | 0.108 (355) |
| RF splice | 10 | 0.015 (31) | 0.013 (73) | 0.013 (110) | 0.015 (55) | 0.013 (114) | 0.013 (162) | 0.014 (46) | 0.013 (88) | 0.012 (118) |
| RF w2a | 80 | 0.049 (60) | 0.053 (258) | 0.051 (389) | 0.045 (135) | 0.053 (312) | 0.051 (484) | 0.044 (142) | 0.042 (298) | 0.041 (383) |
- CArBO 在相同成本预算内在 20 个 HPO 基准上显著优于 EI 和 EIpu。
- 批量 CArBO 随批量大小线性扩展,在批量大小达到 16 时仍保持强劲性能。
- 成本效益高的初始设计在相同预算下比标准网格获取更多信息。
- EI-cool(成本降温)有效地将成本感知的 EIpu 转向标准 EI,在实践中带来稳健改进。
- 低方差成本模型(如基于 flop 的线性模型)在有限数据情景下可进一步提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。