QUICK REVIEW

[论文解读] Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search

Linnan Wang, Rodrigo Fonseca|arXiv (Cornell University)|Jul 1, 2020

Advanced Bandit Algorithms Research参考文献 55被引用 31

一句话总结

LA-MCTS 是一种元算法，用于在黑盒优化中学习非线性空间划分，并在选定区域内使用贝叶斯优化，尤其在高维问题中提高样本效率。

ABSTRACT

High dimensional black-box optimization has broad applications but remains a challenging problem to solve. Given a set of samples $\{\vx_i, y_i\}$, building a global model (like Bayesian Optimization (BO)) suffers from the curse of dimensionality in the high-dimensional search space, while a greedy search may lead to sub-optimality. By recursively splitting the search space into regions with high/low function values, recent works like LaNAS shows good performance in Neural Architecture Search (NAS), reducing the sample complexity empirically. In this paper, we coin LA-MCTS that extends LaNAS to other domains. Unlike previous approaches, LA-MCTS learns the partition of the search space using a few samples and their function values in an online fashion. While LaNAS uses linear partition and performs uniform sampling in each region, our LA-MCTS adopts a nonlinear decision boundary and learns a local model to pick good candidates. If the nonlinear partition function and the local model fits well with ground-truth black-box function, then good partitions and candidates can be reached with much fewer samples. LA-MCTS serves as a \emph{meta-algorithm} by using existing black-box optimizers (e.g., BO, TuRBO) as its local models, achieving strong performance in general black-box optimization and reinforcement learning benchmarks, in particular for high-dimensional problems.

研究动机与目标

通过学习空间划分来避免过度探索，以解决高维黑盒优化问题。
利用分层划分策略将采样集中在有前景的区域。
在学习到的划分中整合局部优化器（如 TuRBO 或贝叶斯优化）以提高样本效率。
在 MuJoCo RL 基准测试和合成函数上展示有效性。
提供消融研究以理解超参数和划分策略的影响。

提出的方法

构建一棵树，每个节点表示搜索空间的一个区域，并通过从当前样本中学习的潜在动作递归划分它。
在一个节点内，使用 K-means 根据函数值对样本进行聚类，以识别好区域与坏区域，然后训练一个 SVM 以形成分割的非线性边界（潜在动作）。
使用上置信界（UCB）在分割后的空间中选择一条路径，以在探索与利用之间取得平衡，并将样本聚焦在有前景的叶节点上。
在所选区域中，使用局部求解器（TuRBO 或 BO）对 f 进行优化，同时将搜索限制在由潜在行动边界路径定义的区域内。
当样本数超过阈值时迭代地分裂叶子，以在有前景的区域加深搜索，并随时间细化 v* 的估计。
在受限区域（Omega_selected）内提供采样策略，并将 TuRBO 的初始化适应到该区域，确保鲁棒探索。

实验结果

研究问题

RQ1与固定划分方法相比，学习到的非线性空间划分是否可以在高维黑盒优化中改善样本效率？
RQ2在自适应学习区域内集成局部贝叶斯优化器是否优于独立的 BO 或进化算法（EA）？
RQ3超参数（C_p、核函数选择、分裂阈值）如何影响 LA-MCTS 在不同任务中的性能？
RQ4作为通用元优化器，LA-MCTS 是否在多样领域（MuJoCo RL 任务、轨迹优化、合成基准测试）上都具有稳健性？

主要发现

任务	奖励阈值	LA-MCTS	ARS V2-t mania2018simple	NG-lin rajeswaran2017towards	NG-rbf rajeswaran2017towards	TRPO-nn mania2018simple
Swimmer-v2	325	126	427	1450	1550	N/A
Hopper-v2	3120	2913	1973	13920	8640	10000
HalfCheetah-v2	3430	3967	1707	11250	6000	4250
Walker2d-v2	4390	N/A( $r_{best}=3523$ )	24000	36840	25680	14250
Ant-v2	3580	N/A( $r_{best}=2871$ )	20800	39240	30000	73500
Humanoid-v2	6000	N/A( $r_{best}=3202$ )	142600	130000	130000	unknown

LA-MCTS 在 MuJoCo 运动任务上持续超越最先进的基线方法（TuRBO、HesBO、BOHB、CMA-ES、DE、DOO、SOO、VOO），尤其在维度增加时表现更突出。
学习到的非线性划分和由 UCB 驱动的节点选择实现了聚焦探索，减少过度探索，在高维问题中提高样本效率。
与 TuRBO 搭配时，LA-MCTS 显著提升性能，并在多次重启中提供来自有前景区域的更好初始化。
LA-MCTS 也提升高维下的基于梯度的贝叶斯优化，并在 Ackley、Rosenbrock 等合成函数上提高性能。
消融研究表明探索性很关键（Cp）、核函数选择（SVM）和分裂阈值（theta）显著影响结果；在较大空间中，具有合适阈值的更深树有帮助。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。