[论文解读] Beyond the Node: Clade-level Selection for Efficient MCTS in Automatic Heuristic Design
Clade-AHD 用分支层面的贝叶斯信念与 Thompson 采样取代节点层面的点估计,以引导 MCTS 在自动启发式设计中的搜索,在复杂组合问题上以更低的计算成本实现更好表现。
While Monte Carlo Tree Search (MCTS) shows promise in Large Language Model (LLM) based Automatic Heuristic Design (AHD), it suffers from a critical over-exploitation tendency under the limited computational budgets required for heuristic evaluation. To address this limitation, we propose Clade-AHD, an efficient framework that replaces node-level point estimates with clade-level Bayesian beliefs. By aggregating descendant evaluations into Beta distributions and performing Thompson Sampling over these beliefs, Clade-AHD explicitly models uncertainty to guide exploration, enabling more reliable decision-making under sparse and noisy evaluations. Extensive experiments on complex combinatorial optimization problems demonstrate that Clade-AHD consistently outperforms state-of-the-art methods while significantly reducing computational cost. The source code is publicly available at: https://github.com/Mriya0306/Clade-AHD.
研究动机与目标
- 在 LLM 驱动的 AHD 中,动机并解决在稀疏评估预算下的 MCTS 过度利用问题。
- 引入一个层次贝叶斯抽象,建模分支层面的潜力而非节点层面的值。
- 开发一个带深度衰减信用分配的分支知觉信念更新机制。
- 提出一个带预算感知退火的分支层面 Thompson 采样策略,以实现探索-开发的平衡。
- 实现动态分支冻结,以修剪次优分支并高效分配资源。
提出的方法
- 将分支定义为搜索树中的一个祖先及其所有后代。
- 将分支潜力建模为 Beta 分布,并以深度衰减向下传播证据。
- 使用分支知觉信念更新聚合后代证据,以计算分支层面的 alpha 和 beta 参数。
- 应用带预算退火的分支层面 Thompson 采样,以选择要扩展的分支。
- 使用动态分支冻结在最小访问次数和间隙标准的基础上修剪次优分支。
实验结果
研究问题
- RQ1在稀疏评估下,分支层面的贝叶斯信念是否可以改善 AHD 的 MCTS 探索-开发平衡?
- RQ2在分支层面向下聚合证据是否比节点中心方法降低估计方差?
- RQ3预算感知的 Thompson 采样如何影响 Clade-AHD 的搜索动态和收敛性?
- RQ4动态分支冻结对资源分配和性能有何影响?
主要发现
- Clade-AHD 在复杂组合问题上持续优于最先进的方法。
- 对分层分支信念的建模在稀疏观测下降低了估计方差。
- 带预算感知退火的分支层面 Thompson 采样在预算推进中有效地平衡探索与开发。
- 动态分支冻结通过修剪次优分支将计算集中在高潜力分支上。
- 消融研究证实了诸如动态冻结、温度退火、深度衰减反向传播、伪评估和自适应归一化等组件的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。