QUICK REVIEW

[论文解读] Automatic Local Rewriting for Combinatorial Optimization

Xinyun Chen, Yuandong Tian|arXiv (Cornell University)|Sep 30, 2018

Reinforcement Learning in Robotics参考文献 28被引用 1

一句话总结

NeuRewriter 提出了一种基于强化学习的方法，通过神经策略学习选择区域和重写规则，自动重写组合优化问题中的局部组件。该方法在表达式简化、在线作业调度和车辆路径问题上优于最先进方法，其优势源于在问题无关结构上采用的演员-评论家训练。

ABSTRACT

Search-based methods for hard combinatorial optimization are often guided by heuristics. Tuning heuristics in various conditions and situations is often time-consuming. In this paper, we propose NeuRewriter that learns a policy to pick heuristics and rewrite the local components of the current solution to iteratively improve it until convergence. The policy factorizes into a region-picking and a rule-picking component, each parameterized by a neural network trained with actor-critic methods in reinforcement learning. NeuRewriter captures the general structure of combinatorial problems and shows strong performance in three versatile tasks: expression simplification, online job scheduling and vehicle routing problems. NeuRewriter outperforms the expression simplification component in Z3; outperforms DeepRM and Google OR-tools in online job scheduling; and outperforms recent neural baselines and Google OR-tools in vehicle routing problems.

研究动机与目标

减少在基于搜索的组合优化中手动调优启发式方法所需的时间和精力。
开发一种通用方法，通过重写局部组件自适应地改进解决方案。
学习一种策略，同时选择需要修改的解决方案部分和应用的重写规则。
在无需针对任务设计启发式方法的情况下，实现对多样化组合问题的强性能表现。
在表达式简化、作业调度和车辆路径规划任务中，超越现有的基于启发式和神经基线方法。

提出的方法

NeuRewriter 使用两部分神经策略：一部分用于选择需要重写的解决方案区域，另一部分用于选择重写规则。
通过演员-评论家强化学习训练策略，以最大化长期解决方案改进效果。
该方法将重写决策分解为区域选择和规则选择两个部分，每个部分由独立的神经网络建模。
通过迭代方式操作，修改局部解决方案组件以提升整体解决方案质量。
该方法捕捉了组合问题中的通用结构模式，从而实现跨任务的可迁移性。
训练过程端到端进行，奖励由每次重写步骤后解决方案质量的提升来塑造。

实验结果

研究问题

RQ1学习到的策略能否有效选择组合优化中需要重写的解决方案部分？
RQ2神经策略能否联合学习区域选择和规则应用以提升解决方案质量？
RQ3该方法是否能在无需针对任务调优的情况下，泛化到多样化的组合优化问题？
RQ4所学习的重写策略性能与手工设计的启发式方法及现有神经基线相比如何？
RQ5该方法能否在性能上超越 Z3、Google OR-tools 和 DeepRM 等最先进工具？

主要发现

NeuRewriter 在表达式简化任务中优于 Z3 中的表达式简化模块。
在在线作业调度场景中，其性能优于 DeepRM 和 Google OR-tools。
在车辆路径规划问题中，NeuRewriter 超过了近期的神经基线模型和 Google OR-tools。
该方法在三项不同的组合优化任务中均表现出强大的泛化能力。
演员-评论家训练方案有效学习到一种策略，通过迭代式局部重写提升解决方案质量。
分解化的策略结构使得在复杂解决方案空间中实现有效的探索与利用成为可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。