[论文解读] Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search
LA-MCTS 是一种元算法,用于在黑盒优化中学习非线性空间划分,并在选定区域内使用贝叶斯优化,尤其在高维问题中提高样本效率。
High dimensional black-box optimization has broad applications but remains a challenging problem to solve. Given a set of samples $\{\vx_i, y_i\}$, building a global model (like Bayesian Optimization (BO)) suffers from the curse of dimensionality in the high-dimensional search space, while a greedy search may lead to sub-optimality. By recursively splitting the search space into regions with high/low function values, recent works like LaNAS shows good performance in Neural Architecture Search (NAS), reducing the sample complexity empirically. In this paper, we coin LA-MCTS that extends LaNAS to other domains. Unlike previous approaches, LA-MCTS learns the partition of the search space using a few samples and their function values in an online fashion. While LaNAS uses linear partition and performs uniform sampling in each region, our LA-MCTS adopts a nonlinear decision boundary and learns a local model to pick good candidates. If the nonlinear partition function and the local model fits well with ground-truth black-box function, then good partitions and candidates can be reached with much fewer samples. LA-MCTS serves as a \emph{meta-algorithm} by using existing black-box optimizers (e.g., BO, TuRBO) as its local models, achieving strong performance in general black-box optimization and reinforcement learning benchmarks, in particular for high-dimensional problems.
研究动机与目标
- 通过学习空间划分来避免过度探索,以解决高维黑盒优化问题。
- 利用分层划分策略将采样集中在有前景的区域。
- 在学习到的划分中整合局部优化器(如 TuRBO 或贝叶斯优化)以提高样本效率。
- 在 MuJoCo RL 基准测试和合成函数上展示有效性。
- 提供消融研究以理解超参数和划分策略的影响。
提出的方法
- 构建一棵树,每个节点表示搜索空间的一个区域,并通过从当前样本中学习的潜在动作递归划分它。
- 在一个节点内,使用 K-means 根据函数值对样本进行聚类,以识别好区域与坏区域,然后训练一个 SVM 以形成分割的非线性边界(潜在动作)。
- 使用上置信界(UCB)在分割后的空间中选择一条路径,以在探索与利用之间取得平衡,并将样本聚焦在有前景的叶节点上。
- 在所选区域中,使用局部求解器(TuRBO 或 BO)对 f 进行优化,同时将搜索限制在由潜在行动边界路径定义的区域内。
- 当样本数超过阈值时迭代地分裂叶子,以在有前景的区域加深搜索,并随时间细化 v* 的估计。
- 在受限区域(Omega_selected)内提供采样策略,并将 TuRBO 的初始化适应到该区域,确保鲁棒探索。
实验结果
研究问题
- RQ1与固定划分方法相比,学习到的非线性空间划分是否可以在高维黑盒优化中改善样本效率?
- RQ2在自适应学习区域内集成局部贝叶斯优化器是否优于独立的 BO 或进化算法(EA)?
- RQ3超参数(C_p、核函数选择、分裂阈值)如何影响 LA-MCTS 在不同任务中的性能?
- RQ4作为通用元优化器,LA-MCTS 是否在多样领域(MuJoCo RL 任务、轨迹优化、合成基准测试)上都具有稳健性?
主要发现
| 任务 | 奖励阈值 | LA-MCTS | ARS V2-t mania2018simple | NG-lin rajeswaran2017towards | NG-rbf rajeswaran2017towards | TRPO-nn mania2018simple |
|---|---|---|---|---|---|---|
| Swimmer-v2 | 325 | 126 | 427 | 1450 | 1550 | N/A |
| Hopper-v2 | 3120 | 2913 | 1973 | 13920 | 8640 | 10000 |
| HalfCheetah-v2 | 3430 | 3967 | 1707 | 11250 | 6000 | 4250 |
| Walker2d-v2 | 4390 | N/A( $r_{best}=3523$ ) | 24000 | 36840 | 25680 | 14250 |
| Ant-v2 | 3580 | N/A( $r_{best}=2871$ ) | 20800 | 39240 | 30000 | 73500 |
| Humanoid-v2 | 6000 | N/A( $r_{best}=3202$ ) | 142600 | 130000 | 130000 | unknown |
- LA-MCTS 在 MuJoCo 运动任务上持续超越最先进的基线方法(TuRBO、HesBO、BOHB、CMA-ES、DE、DOO、SOO、VOO),尤其在维度增加时表现更突出。
- 学习到的非线性划分和由 UCB 驱动的节点选择实现了聚焦探索,减少过度探索,在高维问题中提高样本效率。
- 与 TuRBO 搭配时,LA-MCTS 显著提升性能,并在多次重启中提供来自有前景区域的更好初始化。
- LA-MCTS 也提升高维下的基于梯度的贝叶斯优化,并在 Ackley、Rosenbrock 等合成函数上提高性能。
- 消融研究表明探索性很关键(Cp)、核函数选择(SVM)和分裂阈值(theta)显著影响结果;在较大空间中,具有合适阈值的更深树有帮助。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。