[論文レビュー] Cost-aware Bayesian Optimization
CArBOを導入したコスト意識型ベイズ最適化手法で、早期に低コスト評価を優先し、徐々にコストの高い評価へ移行することで、固定コスト予算下のハイパーパラメータ探索を改善する。
Bayesian optimization (BO) is a class of global optimization algorithms, suitable for minimizing an expensive objective function in as few function evaluations as possible. While BO budgets are typically given in iterations, this implicitly measures convergence in terms of iteration count and assumes each evaluation has identical cost. In practice, evaluation costs may vary in different regions of the search space. For example, the cost of neural network training increases quadratically with layer size, which is a typical hyperparameter. Cost-aware BO measures convergence with alternative cost metrics such as time, energy, or money, for which vanilla BO methods are unsuited. We introduce Cost Apportioned BO (CArBO), which attempts to minimize an objective function in as little cost as possible. CArBO combines a cost-effective initial design with a cost-cooled optimization phase which depreciates a learned cost model as iterations proceed. On a set of 20 black-box function optimization problems we show that, given the same cost budget, CArBO finds significantly better hyperparameter configurations than competing methods.
研究の動機と目的
- 実世界のハイパーパラメータ最適化における反復予算型BOと評価コストの変動との不一致を動機づけ、対処する。
- コスト予算内で目的関数を最小化するブラックボックス型のコスト認識BOアルゴリズムを開発する。
- CArBOがシーケンシャルおよびバッチ設定で、20のHPOベンチマークにおいて標準EIおよびEIpuを実証的に上回ることを示す。
提案手法
- ウォームスタート予算内で空間カバーを最大化するコスト効果の高い初期設計を提案する(ミニマックス充填基準)。
- コストモデルの影響を予算が増えるにつれて低減させるコスト冷却(EI-cool)を導入し、EIpuからEIへの移行を実現する。
- 評価コストを予測する歪みGPコストモデルを用い、それをEI-coolに組み込む。
- ファンタジーを用いたバッチBOを可能にし、バッチサイズの線形スケーリングを実現する。
- デフォルトの初期設計予算tau_init = tau/8を提供し、この選択に対するロバスト性を示す。
実験結果
リサーチクエスチョン
- RQ1ベイズ最適化を、固定の反復予算ではなく固定のコスト予算の下で目的関数を最小化するように適応するにはどうすればよいか。
- RQ2安価な初期設計とコスト冷却の二部構成戦略は、異種のHPO問題全体でコスト効率と最終目的値の質を改善するか。
- RQ3実世界のコスト予算下で、シーケンシャルおよびバッチのハイパーパラメータ最適化におけるCArBOとEI/EIpuの比較はどうなるか。
- RQ4実行時間の外挿に最適な低分散コストモデルは何か(例:フロップベースの線形モデル)?
主な発見
| ベンチマーク | 予算(秒) | EI3 | EI7 | EI11 | EIpu3 | EIpu7 | EIpu11 | CArBO3 | CArBO7 | CArBO11 |
|---|---|---|---|---|---|---|---|---|---|---|
| KNN a1a | 150 | 0.133 (83) | 0.128 (149) | 0.126 (238) | 0.135 (121) | 0.128 (195) | 0.126 (318) | 0.133 (111) | 0.128 (250) | 0.128 (411) |
| KNN a3a | 300 | 0.121 (90) | 0.117 (184) | 0.115 (283) | 0.121 (116) | 0.117 (217) | 0.115 (331) | 0.119 (147) | 0.116 (354) | 0.115 (622) |
| KNN splice | 10 | 0.123 (143) | 0.107 (275) | 0.099 (411) | 0.120 (183) | 0.107 (361) | 0.102 (536) | 0.113 (161) | 0.103 (353) | 0.095 (537) |
| KNN w2a | 400 | 0.055 (83) | 0.052 (150) | 0.047 (206) | 0.056 (142) | 0.049 (277) | 0.048 (373) | 0.048 (77) | 0.046 (189) | 0.044 (314) |
| MLP a1a | 100 | 0.123 (50) | 0.122 (96) | 0.122 (133) | 0.128 (34) | 0.127 (72) | 0.126 (103) | 0.121 (119) | 0.119 (227) | 0.119 (344) |
| MLP a3a | 160 | 0.108 (40) | 0.108 (79) | 0.107 (114) | 0.110 (30) | 0.108 (62) | 0.108 (90) | 0.107 (97) | 0.106 (194) | 0.106 (296) |
| MLP splice | 50 | 0.051 (41) | 0.043 (84) | 0.041 (126) | 0.054 (32) | 0.052 (64) | 0.050 (92) | 0.038 (71) | 0.037 (145) | 0.036 (215) |
| MLP w2a | 200 | 0.024 (33) | 0.023 (69) | 0.022 (101) | 0.024 (27) | 0.023 (57) | 0.022 (84) | 0.023 (73) | 0.023 (152) | 0.023 (226) |
| SVM a1a | 20 | 0.120 (189) | 0.120 (395) | 0.120 (587) | 0.120 (218) | 0.120 (483) | 0.120 (753) | 0.120 (295) | 0.119 (663) | 0.119 (956) |
| SVM a3a | 30 | 0.109 (197) | 0.108 (418) | 0.108 (611) | 0.108 (256) | 0.107 (572) | 0.107 (913) | 0.107 (343) | 0.107 (722) | 0.106 (1019) |
| SVM splice | 4 | 0.114 (100) | 0.114 (191) | 0.113 (282) | 0.114 (127) | 0.113 (307) | 0.113 (425) | 0.113 (225) | 0.111 (540) | 0.111 (836) |
| SVM w2a | 90 | 0.023 (256) | 0.022 (570) | 0.022 (855) | 0.022 (304) | 0.021 (676) | 0.021 (1040) | 0.021 (356) | 0.021 (763) | 0.020 (1034) |
| DT a1a | 2.5 | 0.135 (150) | 0.132 (347) | 0.132 (541) | 0.135 (149) | 0.132 (347) | 0.132 (537) | 0.135 (150) | 0.132 (344) | 0.132 (540) |
| DT a3a | 2.5 | 0.132 (133) | 0.130 (300) | 0.129 (473) | 0.132 (135) | 0.129 (300) | 0.130 (464) | 0.131 (134) | 0.130 (304) | 0.128 (476) |
| DT splice | 2 | 0.029 (300) | 0.028 (645) | 0.026 (1032) | 0.029 (300) | 0.025 (655) | 0.027 (979) | 0.029 (332) | 0.027 (664) | 0.025 (985) |
| DT w2a | 8 | 0.055 (77) | 0.077 (177) | 0.078 (277) | 0.052 (80) | 0.078 (181) | 0.078 (279) | 0.054 (78) | 0.054 (173) | 0.052 (272) |
| RF a1a | 30 | 0.117 (68) | 0.116 (137) | 0.116 (214) | 0.116 (133) | 0.115 (270) | 0.114 (373) | 0.116 (160) | 0.114 (272) | 0.114 (359) |
| RF a3a | 35 | 0.110 (80) | 0.108 (170) | 0.108 (248) | 0.109 (118) | 0.109 (243) | 0.108 (337) | 0.109 (143) | 0.108 (252) | 0.108 (355) |
| RF splice | 10 | 0.015 (31) | 0.013 (73) | 0.013 (110) | 0.015 (55) | 0.013 (114) | 0.013 (162) | 0.014 (46) | 0.013 (88) | 0.012 (118) |
| RF w2a | 80 | 0.049 (60) | 0.053 (258) | 0.051 (389) | 0.045 (135) | 0.053 (312) | 0.051 (484) | 0.044 (142) | 0.042 (298) | 0.041 (383) |
- 同じコスト予算内で、20のHPOベンチマークにおいてCArBOはEIおよびEIpuを大幅に上回る。
- バッチCArBOはバッチサイズとともに線形にスケールし、バッチサイズ16まで強力な性能を維持。
- コスト効果の高い初期設計は、同じ予算下で標準的なグリッドよりもはるかに多くの情報を提供する。
- EI-cool(コスト冷却)は、コスト認識EIpuから標準EIへの移行を効果的に行い、実践上の堅牢な改善をもたらす。
- 低分散なコストモデル(例:フロップベースの線形モデル)は、特にデータが限られた領域で性能をさらに向上させうる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。