Skip to main content
QUICK REVIEW

[论文解读] Model-based Genetic Programming with GOMEA for Symbolic Regression of Small Expressions

Marco Virgolin, Tanja Alderliesten|arXiv (Cornell University)|Apr 3, 2019
Evolutionary Algorithms and Applications被引用 2
一句话总结

本文在 GOMEA 框架内提出了一种新颖的关联学习(LL)方法,以提升小规模、可解释表达式的符号回归(SR)性能。通过纠正基因型非均匀性,并结合瞬时随机常数改进关联学习,GOMEA 在传统和语义 GP 方法之上表现更优,在严格大小限制下优于调优后的决策树,在 10 个真实世界数据集上表现优异。

ABSTRACT

The Gene-pool Optimal Mixing Evolutionary Algorithm (GOMEA) is a model-based EA framework that has been shown to perform well in several domains, including Genetic Programming (GP). Differently from traditional EAs where variation acts blindly, GOMEA learns a model of interdependencies within the genotype, i.e., the linkage, to estimate what patterns to propagate. In this article, we study the role of Linkage Learning (LL) performed by GOMEA in Symbolic Regression (SR). We show that the non-uniformity in the distribution of the genotype in GP populations negatively biases LL, and propose a method to correct for this. We also propose approaches to improve LL when ephemeral random constants are used. Furthermore, we adapt a scheme of interleaving runs to alleviate the burden of tuning the population size, a crucial parameter for LL, to SR. We run experiments on 10 real-world datasets, enforcing a strict limitation on solution size, to enable interpretability. We find that the new LL method outperforms the standard one, and that GOMEA outperforms both traditional and semantic GP. We also find that the small solutions evolved by GOMEA are competitive with tuned decision trees, making GOMEA a promising new approach to SR.

研究动机与目标

  • 探究基因型非均匀性如何在遗传编程(GP)种群中导致关联学习(LL)偏差。
  • 解决在 GP 中使用瞬时随机常数时有效关联学习的挑战。
  • 通过交错运行策略降低基于模型的 GP 对种群大小调优的敏感性。
  • 在严格表达式大小约束下,评估改进后的 GOMEA 框架在符号回归中的性能。

提出的方法

  • 提出一种校正方法,以减轻基因型分布非均匀性在关联学习过程中引入的偏差。
  • 通过修改关联模型以保留瞬时随机常数对进化进展的影响,改进 GOMEA 框架以更好地处理瞬时随机常数。
  • 引入一种交错运行策略,以降低对人工种群大小调优的依赖,提升在不同问题实例中的鲁棒性。
  • 采用基于模型的优化方法,通过 GOMEA 学习并利用基因型中的关联结构,以比盲目变异更有效地引导搜索。
  • 将改进后的 GOMEA 框架应用于符号回归任务,并强制限制最大表达式大小,以确保可解释性。
  • 使用 10 个真实世界数据集,在受控的小表达式约束下评估性能。

实验结果

研究问题

  • RQ1基因型非均匀性如何影响 GP 种群中的关联学习?是否可以通过校正提升模型准确性?
  • RQ2瞬时随机常数的存在在多大程度上阻碍了 GP 中的有效关联学习?如何缓解这一问题?
  • RQ3交错运行策略是否能降低 GOMEA 在符号回归中对种群大小调优的敏感性?
  • RQ4所提出的基于 GOMEA 的符号回归方法在真实世界数据集上,与传统和语义 GP 方法相比,性能如何,尤其是在表达式大小受限的情况下?

主要发现

  • 所提出的关联学习校正方法在符号回归中显著优于标准 GOMEA 的 LL 方法。
  • 采用改进 LL 方法的 GOMEA 在所有 10 个真实世界数据集上均优于传统和语义 GP。
  • GOMEA 所演化出的小型表达式与调优后的决策树性能相当,展现出强大的泛化能力和可解释性。
  • 交错运行策略有效减轻了种群大小调优的负担,提升了在不同问题实例中的鲁棒性。
  • 修改后的关联模型更好地支持了瞬时随机常数的使用,从而实现更有效的搜索并提升解的质量。
  • 结果证实,结合增强关联学习的基于模型 GP 是符号回归的有前途方法,尤其在可解释性至关重要的场景中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。