[论文解读] Portfolio Allocation for Bayesian Optimization
本文提出 GP-Hedge,一种基于投资组合的贝叶斯优化方法,通过在线多臂老虎机策略自适应地在多个采集函数之间进行选择。通过在期望改进(Expected Improvement)和置信上界(Upper Confidence Bound)等探索-利用策略之间动态分配,GP-Hedge 实现了卓越性能——优于任何单一采集函数——同时提供了与 GP-UCB 收敛特性相关的理论遗憾界。
Bayesian optimization with Gaussian processes has become an increasingly popular tool in the machine learning community. It is efficient and can be used when very little is known about the objective function, making it popular in expensive black-box optimization scenarios. It uses Bayesian methods to sample the objective efficiently using an acquisition function which incorporates the model's estimate of the objective and the uncertainty at any given point. However, there are several different parameterized acquisition functions in the literature, and it is often unclear which one to use. Instead of using a single acquisition function, we adopt a portfolio of acquisition functions governed by an online multi-armed bandit strategy. We propose several portfolio strategies, the best of which we call GP-Hedge, and show that this method outperforms the best individual acquisition function. We also provide a theoretical bound on the algorithm's performance.
研究动机与目标
- 为解决贝叶斯优化中选择最优采集函数的挑战,因为没有单一函数能在所有目标函数上表现良好。
- 通过将多个采集函数组合为一个基于性能动态调整的动态投资组合,提升优化效率。
- 开发一种理论基础坚实的方法,通过遗憾界提供性能保证,即使单个采集函数的有效性存在差异。
- 评估自适应对冲策略是否能在真实世界和合成优化任务中持续优于静态采集函数。
提出的方法
- 该方法采用分层对冲策略,将采集函数的选择建模为多臂老虎机问题,奖励基于观测到的目标函数改进。
- 它维护一个包含期望改进(EI)、改进概率(PI)和 GP-UCB 的采集函数投资组合,并使用在线学习方法根据历史表现更新其权重。
- 核心算法 GP-Hedge 使用采集函数的加权组合,其中权重通过指数加权方案更新,以偏好表现更优的策略。
- 通过将累积遗憾与 GP-UCB 已知的收敛特性关联,提供了理论遗憾界,前提是信息增益和核超参数满足一定假设。
- 使用具有平方指数核和自动相关性确定(ARD)的高斯过程先验来建模目标函数,超参数从数据中估计。
- 该算法在标准基准函数和一个真实世界的强化学习任务上进行了评估,采用噪声函数评估和顺序采样。
实验结果
研究问题
- RQ1通过在线学习动态选择的采集函数投资组合,是否能在贝叶斯优化中优于任何单一采集函数?
- RQ2在具有不同平滑度和结构的多样化目标函数上,对冲策略的性能与单一采集函数相比如何?
- RQ3对于基于投资组合的贝叶斯优化方法,其累积遗憾可提供哪些理论保证?
- RQ4在非平稳或高维设置中,将 GP-UCB 纳入投资组合是否能提升收敛性和鲁棒性?
主要发现
- GP-Hedge 在标准基准函数上优于所有单一采集函数,包括在存在平台区域和非平稳行为的函数上,PI 表现不佳的情况。
- 该方法的累积遗憾低于任何单一采集函数,实证结果表明在合成和真实世界任务中均表现出一致的性能提升。
- 全信息对冲策略(可观察所有采集函数的奖励)在大多数情况下优于部分信息变体,尤其是在采集函数提供冲突信号时。
- 理论遗憾界表明,GP-Hedge 的性能与 GP-UCB 的收敛性相关,亚线性遗憾项表明随着迭代次数增加,最终将实现收敛。
- 该方法对采集函数的初始选择不佳具有鲁棒性,因为自适应投资组合机制能随时间纠正次优选择。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。