[论文解读] Simple Hyper-heuristics Optimise LeadingOnes in the Best Runtime Achievable Using Randomised Local Search Low-Level Heuristics
本文提出了一种广义随机梯度超启发式算法(GRG),该算法采用最小化的强化学习机制,自适应地选择随机局部搜索(RLS)在LeadingOnes函数上的邻域大小。理论证明,GRG仅使用低层次启发式方法即可实现最优运行时间性能,优于标准RLS和进化算法,尤其在即时性能指标下表现更优。
Selection HHs are randomised search methodologies which choose and execute heuristics during the optimisation process from a set of low-level heuristics. A machine learning mechanism is generally used to decide which low-level heuristic should be applied in each decision step. In this paper we analyse whether sophisticated learning mechanisms are always necessary for HHs to perform well. To this end we consider the most simple HHs from the literature and rigorously analyse their performance for the LeadingOnes function. Our analysis shows that the standard Simple Random, Permutation, Greedy and Random Gradient HHs show no signs of learning. While the former HHs do not attempt to learn from the past performance of low-level heuristics, the idea behind the Random Gradient HH is to continue to exploit the currently selected heuristic as long as it is successful. Hence, it is embedded with a reinforcement learning mechanism with the shortest possible memory. However, the probability that a promising heuristic is successful in the next step is relatively low when perturbing a reasonable solution to a combinatorial optimisation problem. We generalise the simple Random Gradient HH so success can be measured over a fixed period of time tau, instead of a single iteration. For LO we prove that the Generalised Random Gradient HH can learn to adapt the neighbourhood size of RLS to optimality during the run. We prove it has the best possible performance achievable with the low-level heuristics. We also prove that the performance of the HH improves as the number of low-level local search heuristics to choose from increases. Finally, we show that the advantages of GRG over RLS and EAs using standard bit mutation increase if the anytime performance is considered. Experimental analyses confirm these results for different problem sizes.
研究动机与目标
- 探究复杂学习机制是否为超启发式算法实现高性能所必需。
- 分析基础超启发式方法——简单随机、排列、贪心和随机梯度——在LeadingOnes函数上的性能表现。
- 设计并分析一种广义随机梯度超启发式算法(GRG),该算法基于时间窗口τ而非单步评估启发式成功度。
- 证明GRG能够学习到最优地调整RLS的邻域大小,从而在给定低层次启发式方法下实现最佳可能性能。
- 评估增加低层次启发式方法数量对超启发式性能的影响,并与RLS及标准进化算法进行比较。
提出的方法
- 本文分析了四种基线超启发式方法:简单随机、排列、贪心和随机梯度,均仅使用低层次局部搜索启发式方法。
- 提出广义随机梯度(GRG)超启发式方法,其将启发式成功度的评估从单步扩展为固定时间窗口τ。
- GRG采用最小记忆的强化学习机制:只要在τ个连续步骤内表现良好,就持续使用同一启发式方法。
- 研究聚焦于LeadingOnes函数,建模GRG的运行时间,并与RLS及标准进化算法进行比较。
- 理论证明表明,GRG可实现使用给定低层次启发式方法所能达到的最佳运行时间性能。
- 本文推导了随着可用低层次启发式方法数量增加,性能提升的边界。
实验结果
研究问题
- RQ1无需复杂学习机制的简单超启发式方法是否能在组合优化问题上实现最优性能?
- RQ2尽管记忆极少,随机梯度超启发式方法在LeadingOnes函数上是否表现出学习行为?
- RQ3将成功评估窗口从单步扩展至τ步,是否能显著提升超启发式方法的性能?
- RQ4增加可用低层次启发式方法的数量是否能提升超启发式方法的性能?
- RQ5GRG超启发式方法的即时性能与RLS及使用位翻转突变的标准进化算法相比如何?
主要发现
- 标准的简单随机、排列、贪心和随机梯度超启发式方法均无学习行为,因其不依据历史启发式表现进行自适应调整。
- 广义随机梯度(GRG)超启发式方法成功学习到在运行过程中自适应调整RLS邻域大小至最优,实现了最佳可能的运行时间性能。
- 随着可用低层次局部搜索启发式方法数量的增加,GRG的性能持续提升,表明该方法具有良好的可扩展性。
- GRG在性能上优于RLS及使用标准位翻转突变的进化算法,尤其在即时性能指标下表现更优,此时早期收敛至关重要。
- 实验结果在不同问题规模下均验证了理论发现,证实了GRG方法的稳健性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。