[论文解读] Simulation-guided Beam Search for Neural Combinatorial Optimization
引入用于神经组合优化的仿真引导束搜索(SGBS),将神经策略引导与回合 rollout 相结合,并进一步将 SGBS 与 Efficient Active Search (EAS) 相耦合,以在 TSP、CVRP 和 FFSP 上提升解质量。
Neural approaches for combinatorial optimization (CO) equip a learning mechanism to discover powerful heuristics for solving complex real-world problems. While neural approaches capable of high-quality solutions in a single shot are emerging, state-of-the-art approaches are often unable to take full advantage of the solving time available to them. In contrast, hand-crafted heuristics perform highly effective search well and exploit the computation time given to them, but contain heuristics that are difficult to adapt to a dataset being solved. With the goal of providing a powerful search procedure to neural CO approaches, we propose simulation-guided beam search (SGBS), which examines candidate solutions within a fixed-width tree search that both a neural net-learned policy and a simulation (rollout) identify as promising. We further hybridize SGBS with efficient active search (EAS), where SGBS enhances the quality of solutions backpropagated in EAS, and EAS improves the quality of the policy used in SGBS. We evaluate our methods on well-known CO benchmarks and show that SGBS significantly improves the quality of the solutions found under reasonable runtime assumptions.
研究动机与目标
- 提出利用求解时间来提高神经组合优化推理效率的动机。
- 开发一种受神经策略和 rollout 指导的类似束搜索的过程,以提高解的质量。
- 将 SGBS 与 Efficient Active Search (EAS) 融合,以在更长的时间预算下进一步提升性能。
- 在标准 CO 基准测试:TSP、CVRP 和 FFSP 上展示有效性,并与最先进的神经和手工求解器进行比较。
提出的方法
- 将 SGBS 定义为在固定宽度树上进行的三阶段搜索(Expansion、Simulation、Pruning)。
- Expansion 基于神经策略概率,选择每个束节点的前 gamma 个子节点。
- Simulation 进行贪心 rollout 以评估候选节点并分配奖励。
- Pruning 保留具有最高 rollout 奖励的前 beta 个节点以继续搜索。
- 通过在 SGBS 与模型参数更新之间交替来将 SGBS 与 EAS 集成,以引导采样。
- 在问题分布上对策略网络进行预训练,并在推理期间通过 EAS 进行微调以利用时间预算。
实验结果
研究问题
- RQ1如何通过回合制评估来增强神经策略,以改善组合优化问题的构建阶段搜索?
- RQ2在固定时间预算下,仿真引导束搜索在解质量方面是否优于标准采样、贪婪和原生束搜索?
- RQ3将 SGBS 与 Efficient Active Search (EAS) 耦合是否在长时域优化中带来进一步提升?
- RQ4在分布偏移和模型校准误差下,SGBS 与 SGBS+EAS 的收益是否具有鲁棒性?
- RQ5SGBS 与 SGBS+EAS 是否能在 TSP、CVRP 和 FFSP 上达到与手工求解器及其他神经方法相竞争的性能?
主要发现
- SGBS 在与可比运行时间下,优于 TSP、CVRP、和 FFSP 的采样与束搜索。
- SGBS+EAS 相较于单独的 EAS,在 TSP 和 CVRP 上显著缩小解的间隙(例如在不同设定中大约减少三分之一到一半的间隙)。
- 对于 n=100 的 CVRP,在测试场景中,SGBS+EAS 与手工求解器的间隙非常小(如 0.11% 对 HGS)。
- SGBS 在分布 Shift 下表现出鲁棒性,而纯粹的概率方法会退化;而 EAS 和 MCTS 则显示出较慢的运行时间或需要更广泛的反向传播。
- 在 FFSP 上,SGBS+EAS 显著超越经典 CO 方法并与神经基线相抗衡,说明该方法的广泛适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。