QUICK REVIEW

[논문 리뷰] Cost-aware Bayesian Optimization

Eric Hans Lee, Valerio Perrone|arXiv (Cornell University)|2020. 03. 22.

Machine Learning and Data Classification참고 문헌 37인용 수 30

한 줄 요약

CArBO를 도입하는 비용 인지형 베이지안 최적화 방법으로, 초기 평가를 저비용으로 우선하고 점차 비용이 더 드는 평가로 전환하여 고정 비용 예산하의 하이퍼파라미터 탐색을 개선한다.

ABSTRACT

Bayesian optimization (BO) is a class of global optimization algorithms, suitable for minimizing an expensive objective function in as few function evaluations as possible. While BO budgets are typically given in iterations, this implicitly measures convergence in terms of iteration count and assumes each evaluation has identical cost. In practice, evaluation costs may vary in different regions of the search space. For example, the cost of neural network training increases quadratically with layer size, which is a typical hyperparameter. Cost-aware BO measures convergence with alternative cost metrics such as time, energy, or money, for which vanilla BO methods are unsuited. We introduce Cost Apportioned BO (CArBO), which attempts to minimize an objective function in as little cost as possible. CArBO combines a cost-effective initial design with a cost-cooled optimization phase which depreciates a learned cost model as iterations proceed. On a set of 20 black-box function optimization problems we show that, given the same cost budget, CArBO finds significantly better hyperparameter configurations than competing methods.

연구 동기 및 목표

실세계 하이퍼파라parameter 최적화에서 반복 예산 보팅과 가변 평가 비용 간의 불일치를 동기화하고 해결한다.
비용 예산 내에서 목표를 최소화하는 블랙박스 비용 인식형 BO 알고리즘을 개발한다.
CArBO가 순차 및 배치 설정에서 20개 HPO 벤치마크를 대상으로 표준 EI 및 EIpu를 능가함을 실증적으로 보여준다.

제안 방법

워밍업 예산 내에서 공간 커버리지를 극대화하기 위한 비용 효율적 초기 설계를 제안한다(최대-최소 채움 기준).
비용 모델의 영향력을 예산이 더 많이 사용될수록 감소시키는 비용 냉각(EI-cool)을 도입하여 EIpu에서 EI로 전환한다.
평가 비용을 예측하고 EI-cool에 피드해주는 왜곡 GP 비용 모델을 사용한다.
판 배치 확장을 위해 판타지(fantasies)를 이용한 배치 BO를 가능하게 하여 배치 크기에 따라 선형 확장을 달성한다.
tau_init = tau/8의 기본 초기 설계 예산을 제공하고 이 선택에 대한 강건성을 입증한다.

실험 결과

연구 질문

RQ1베이지안 최적화를 어떻게 고정된 반복 예산이 아닌 고정된 비용 예산 하에서 목적을 최소화하도록 적용할 수 있는가?
RQ2저비용 초기 설계와 비용 냉각의 두부 전략이 이질적인 HPO 문제들에서 비용 효율성과 최종 목표 품질을 개선하는가?
RQ3실세계 비용 예산 하에서 순차 및 배치 하이퍼파라미터 최적화에서 CArBO가 EI 및 EIpu와 어떻게 비교되는가?
RQ4실행 시간 extrapolation에 가장 잘 맞는 저분산 비용 모델은 비용 인지형 BO를 보완하는가(예: 플롭 기반 선형 모델)?

주요 결과

Benchmark	Budget (s)	EI3	EI7	EI11	EIpu3	EIpu7	EIpu11	CArBO3	CArBO7	CArBO11
KNN a1a	150	0.133 (83)	0.128 (149)	0.126 (238)	0.135 (121)	0.128 (195)	0.126 (318)	0.133 (111)	0.128 (250)	0.128 (411)
KNN a3a	300	0.121 (90)	0.117 (184)	0.115 (283)	0.121 (116)	0.117 (217)	0.115 (331)	0.119 (147)	0.116 (354)	0.115 (622)
KNN splice	10	0.123 (143)	0.107 (275)	0.099 (411)	0.120 (183)	0.107 (361)	0.102 (536)	0.113 (161)	0.103 (353)	0.095 (537)
KNN w2a	400	0.055 (83)	0.052 (150)	0.047 (206)	0.056 (142)	0.049 (277)	0.048 (373)	0.048 (77)	0.046 (189)	0.044 (314)
MLP a1a	100	0.123 (50)	0.122 (96)	0.122 (133)	0.128 (34)	0.127 (72)	0.126 (103)	0.121 (119)	0.119 (227)	0.119 (344)
MLP a3a	160	0.108 (40)	0.108 (79)	0.107 (114)	0.110 (30)	0.108 (62)	0.108 (90)	0.107 (97)	0.106 (194)	0.106 (296)
MLP splice	50	0.051 (41)	0.043 (84)	0.041 (126)	0.054 (32)	0.052 (64)	0.050 (92)	0.038 (71)	0.037 (145)	0.036 (215)
MLP w2a	200	0.024 (33)	0.023 (69)	0.022 (101)	0.024 (27)	0.023 (57)	0.022 (84)	0.023 (73)	0.023 (152)	0.023 (226)
SVM a1a	20	0.120 (189)	0.120 (395)	0.120 (587)	0.120 (218)	0.120 (483)	0.120 (753)	0.120 (295)	0.119 (663)	0.119 (956)
SVM a3a	30	0.109 (197)	0.108 (418)	0.108 (611)	0.108 (256)	0.107 (572)	0.107 (913)	0.107 (343)	0.107 (722)	0.106 (1019)
SVM splice	4	0.114 (100)	0.114 (191)	0.113 (282)	0.114 (127)	0.113 (307)	0.113 (425)	0.113 (225)	0.111 (540)	0.111 (836)
SVM w2a	90	0.023 (256)	0.022 (570)	0.022 (855)	0.022 (304)	0.021 (676)	0.021 (1040)	0.021 (356)	0.021 (763)	0.020 (1034)
DT a1a	2.5	0.135 (150)	0.132 (347)	0.132 (541)	0.135 (149)	0.132 (347)	0.132 (537)	0.135 (150)	0.132 (344)	0.132 (540)
DT a3a	2.5	0.132 (133)	0.130 (300)	0.129 (473)	0.132 (135)	0.129 (300)	0.130 (464)	0.131 (134)	0.130 (304)	0.128 (476)
DT splice	2	0.029 (300)	0.028 (645)	0.026 (1032)	0.029 (300)	0.025 (655)	0.027 (979)	0.029 (332)	0.027 (664)	0.025 (985)
DT w2a	8	0.055 (77)	0.077 (177)	0.078 (277)	0.052 (80)	0.078 (181)	0.078 (279)	0.054 (78)	0.054 (173)	0.052 (272)
RF a1a	30	0.117 (68)	0.116 (137)	0.116 (214)	0.116 (133)	0.115 (270)	0.114 (373)	0.116 (160)	0.114 (272)	0.114 (359)
RF a3a	35	0.110 (80)	0.108 (170)	0.108 (248)	0.109 (118)	0.109 (243)	0.108 (337)	0.109 (143)	0.108 (252)	0.108 (355)
RF splice	10	0.015 (31)	0.013 (73)	0.013 (110)	0.015 (55)	0.013 (114)	0.013 (162)	0.014 (46)	0.013 (88)	0.012 (118)
RF w2a	80	0.049 (60)	0.053 (258)	0.051 (389)	0.045 (135)	0.053 (312)	0.051 (484)	0.044 (142)	0.042 (298)	0.041 (383)

CArBO는 동일한 비용 예산 내에서 20개 HPO 벤치마크에 걸쳐 EI와 EIpu를 크게 능가한다.
배치 CArBO는 배치 크기에 따라 선형으로 확장되며 배치 크기가 16까지도 강한 성능을 유지한다.
비용 효율적 초기 설계는 동일 예산 하에서 표준 격자 대비 훨씬 더 많은 정보를 제공한다.
EI-cool(비용 냉각)은 비용 인지 EIpu에서 표준 EI로의 전환을 효과적으로 이끌어 실무에서 견고한 개선을 yield한다.
저분산 비용 모델(예: 플롭 기반 선형 모델)은 데이터가 제한된 영역에서 성능을 추가로 향상시킬 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.