Skip to main content
QUICK REVIEW

[论文解读] Introns and Templates Matter: Rethinking Linkage in GP-GOMEA

Johannes Koch, Tanja Alderliesten|arXiv (Cornell University)|Feb 2, 2026
Bioinformatics and Genomic Networks被引用 0
一句话总结

本文引入两种适用于 GP-GOMEA 的新的连锁学习度量,考虑内含子与模板结构,在多个基准上提升符号回归性能。它还分析这些度量如何与模板对齐,并比较静态与随机化的连锁树。

ABSTRACT

GP-GOMEA is among the state-of-the-art for symbolic regression, especially when it comes to finding small and potentially interpretable solutions. A key mechanism employed in any GOMEA variant is the exploitation of linkage, the dependencies between variables, to ensure efficient evolution. In GP-GOMEA, mutual information between node positions in GP trees has so far been used to learn linkage. For this, a fixed expression template is used. This however leads to introns for expressions smaller than the full template. As introns have no impact on fitness, their occurrences are not directly linked to selection. Consequently, introns can adversely affect the extent to which mutual information captures dependencies between tree nodes. To overcome this, we propose two new measures for linkage learning, one that explicitly considers introns in mutual information estimates, and one that revisits linkage learning in GP-GOMEA from a grey-box perspective, yielding a measure that needs not to be learned from the population but is derived directly from the template. Across five standard symbolic regression problems, GP-GOMEA achieves substantial improvements using both measures. We also find that the newly learned linkage structure closely reflects the template linkage structure, and that explicitly using the template structure yields the best performance overall.

研究动机与目标

  • 推动需要更好连锁学习以在 GP-GOMEA 中产生更小、可解释的符号表达式。
  • 研究非活动变量(内含子)如何扭曲传统基于互信息的连锁估计。
  • 提出两个新度量:一个在 MI 中屏蔽内含子,一个使用模板驱动的灰箱连锁。
  • 在标准符号回归数据集上评估提出的度量,以评估性能提升和学习到的连锁结构。

提出的方法

  • 描述具有固定模板映射决策变量到树节点的 GP-GOMEA。
  • 引入两种新的连锁学习方法:在 MI 中屏蔽内含子,以及使用节点接近度度量的基于模板的灰箱连锁。
  • 通过对相似性矩阵进行分层聚类来构建子集族(FOS),以形成连锁树。
  • 通过在不同模板高度和线性缩放下的实验,将多种连锁度量与基线进行比较。
  • 使用 IMS 与固定大小种群来隔离连锁学习对性能的影响。
  • 报告训练 R^2 和自助置信区间以评估统计显著性。

实验结果

研究问题

  • RQ1内含子如何影响 GP-GOMEA 中基于互信息的连锁学习?
  • RQ2在 MI 中屏蔽内含子是否能提高学习到的连锁结构的准确性?
  • RQ3一个基于模板的灰箱连锁度量是否比数据驱动的 MI 基度量有更好性能?
  • RQ4不同连锁度量在标准符号回归基准上有何比较?
  • RQ5学习到的连锁结构与固定模板结构之间的关系是什么?

主要发现

  • 在 MI 中屏蔽内含子(MI_masked)和基于模板信息的节点接近度度量在训练准确性方面优于传统 MI 和随机连锁。
  • 基于节点接近度的度量(Node)在各问题和设置下表现最佳,通常比其他方法更快。
  • 静态连锁树(重复使用同一 LT)的表现不如随机化的 LT 构建,表明跨代的连锁变异带来益处。
  • 性能通常随模板增大和线性缩放启用而改进。
  • 新学习的连锁结构更接近模板连锁,且基于模板的显式方法取得最佳整体结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。