Skip to main content
QUICK REVIEW

[论文解读] Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search

Linnan Wang, Rodrigo Fonseca|arXiv (Cornell University)|Jul 1, 2020
Advanced Bandit Algorithms Research参考文献 55被引用 31
一句话总结

LA-MCTS 是一种元算法,用于在黑盒优化中学习非线性空间划分,并在选定区域内使用贝叶斯优化,尤其在高维问题中提高样本效率。

ABSTRACT

High dimensional black-box optimization has broad applications but remains a challenging problem to solve. Given a set of samples $\{\vx_i, y_i\}$, building a global model (like Bayesian Optimization (BO)) suffers from the curse of dimensionality in the high-dimensional search space, while a greedy search may lead to sub-optimality. By recursively splitting the search space into regions with high/low function values, recent works like LaNAS shows good performance in Neural Architecture Search (NAS), reducing the sample complexity empirically. In this paper, we coin LA-MCTS that extends LaNAS to other domains. Unlike previous approaches, LA-MCTS learns the partition of the search space using a few samples and their function values in an online fashion. While LaNAS uses linear partition and performs uniform sampling in each region, our LA-MCTS adopts a nonlinear decision boundary and learns a local model to pick good candidates. If the nonlinear partition function and the local model fits well with ground-truth black-box function, then good partitions and candidates can be reached with much fewer samples. LA-MCTS serves as a \emph{meta-algorithm} by using existing black-box optimizers (e.g., BO, TuRBO) as its local models, achieving strong performance in general black-box optimization and reinforcement learning benchmarks, in particular for high-dimensional problems.

研究动机与目标

  • 通过学习空间划分来避免过度探索,以解决高维黑盒优化问题。
  • 利用分层划分策略将采样集中在有前景的区域。
  • 在学习到的划分中整合局部优化器(如 TuRBO 或贝叶斯优化)以提高样本效率。
  • 在 MuJoCo RL 基准测试和合成函数上展示有效性。
  • 提供消融研究以理解超参数和划分策略的影响。

提出的方法

  • 构建一棵树,每个节点表示搜索空间的一个区域,并通过从当前样本中学习的潜在动作递归划分它。
  • 在一个节点内,使用 K-means 根据函数值对样本进行聚类,以识别好区域与坏区域,然后训练一个 SVM 以形成分割的非线性边界(潜在动作)。
  • 使用上置信界(UCB)在分割后的空间中选择一条路径,以在探索与利用之间取得平衡,并将样本聚焦在有前景的叶节点上。
  • 在所选区域中,使用局部求解器(TuRBO 或 BO)对 f 进行优化,同时将搜索限制在由潜在行动边界路径定义的区域内。
  • 当样本数超过阈值时迭代地分裂叶子,以在有前景的区域加深搜索,并随时间细化 v* 的估计。
  • 在受限区域(Omega_selected)内提供采样策略,并将 TuRBO 的初始化适应到该区域,确保鲁棒探索。

实验结果

研究问题

  • RQ1与固定划分方法相比,学习到的非线性空间划分是否可以在高维黑盒优化中改善样本效率?
  • RQ2在自适应学习区域内集成局部贝叶斯优化器是否优于独立的 BO 或进化算法(EA)?
  • RQ3超参数(C_p、核函数选择、分裂阈值)如何影响 LA-MCTS 在不同任务中的性能?
  • RQ4作为通用元优化器,LA-MCTS 是否在多样领域(MuJoCo RL 任务、轨迹优化、合成基准测试)上都具有稳健性?

主要发现

任务奖励阈值LA-MCTSARS V2-t mania2018simpleNG-lin rajeswaran2017towardsNG-rbf rajeswaran2017towardsTRPO-nn mania2018simple
Swimmer-v232512642714501550N/A
Hopper-v231202913197313920864010000
HalfCheetah-v23430396717071125060004250
Walker2d-v24390N/A( $r_{best}=3523$ )24000368402568014250
Ant-v23580N/A( $r_{best}=2871$ )20800392403000073500
Humanoid-v26000N/A( $r_{best}=3202$ )142600130000130000unknown
  • LA-MCTS 在 MuJoCo 运动任务上持续超越最先进的基线方法(TuRBO、HesBO、BOHB、CMA-ES、DE、DOO、SOO、VOO),尤其在维度增加时表现更突出。
  • 学习到的非线性划分和由 UCB 驱动的节点选择实现了聚焦探索,减少过度探索,在高维问题中提高样本效率。
  • 与 TuRBO 搭配时,LA-MCTS 显著提升性能,并在多次重启中提供来自有前景区域的更好初始化。
  • LA-MCTS 也提升高维下的基于梯度的贝叶斯优化,并在 Ackley、Rosenbrock 等合成函数上提高性能。
  • 消融研究表明探索性很关键(Cp)、核函数选择(SVM)和分裂阈值(theta)显著影响结果;在较大空间中,具有合适阈值的更深树有帮助。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。