Skip to main content
QUICK REVIEW

[论文解读] A Survey on Techniques of Improving Generalization Ability of Genetic Programming Solutions

Vipul K. Dabhi, Sanjay Chaudhary|arXiv (Cornell University)|Nov 6, 2012
Evolutionary Algorithms and Applications参考文献 29被引用 25
一句话总结

本综述系统性地回顾了通过解决膨胀和过拟合问题来提升遗传编程(GP)解的一般化能力的技术——这两个因素是模型性能下降的关键原因。该综述对膨胀控制方法、过拟合缓解策略以及评估指标进行了分类,为从业者提供了一个比较框架,以选择有效方法来提高GP解的鲁棒性和一般化能力。

ABSTRACT

In the field of empirical modeling using Genetic Programming (GP), it is important to evolve solution with good generalization ability. Generalization ability of GP solutions get affected by two important issues: bloat and over-fitting. We surveyed and classified existing literature related to different techniques used by GP research community to deal with these issues. We also point out limitation of these techniques, if any. Moreover, the classification of different bloat control approaches and measures for bloat and over-fitting are also discussed. We believe that this work will be useful to GP practitioners in following ways: (i) to better understand concepts of generalization in GP (ii) comparing existing bloat and over-fitting control techniques and (iii) selecting appropriate approach to improve generalization ability of GP evolved solutions.

研究动机与目标

  • 识别并分类遗传编程(GP)中用于提升解一般化能力的技术。
  • 分析膨胀和过拟合对GP模型性能与一般化能力的影响。
  • 从有效性与局限性角度,对比现有的膨胀控制与过拟合缓解策略。
  • 为GP从业者提供全面的参考,以便根据问题背景选择合适的技术。
  • 指出现有方法中的空白与局限,以指导未来GP一般化研究。

提出的方法

  • 聚焦于膨胀与过拟合控制技术的GP研究的系统性文献综述。
  • 将膨胀控制方法分类为结构型、基于适应度的以及混合型方法。
  • 对过拟合缓解策略进行分类,包括训练数据多样性、正则化以及适应度函数修改。
  • 分析用于衡量膨胀的指标(例如,树的大小、代码增长)和过拟合的指标(例如,测试误差与训练误差的差异)。
  • 将研究发现整合为一个比较框架,基于性能与适用性评估各类技术。
  • 识别现有技术的局限性,如计算开销高以及在特定上下文中的有效性问题。

实验结果

研究问题

  • RQ1遗传编程解一般化能力差的主要原因是什么?
  • RQ2膨胀和过拟合如何具体降低所演化GP模型的性能与鲁棒性?
  • RQ3用于控制GP中膨胀与过拟合的主要技术类别有哪些?
  • RQ4不同膨胀与过拟合控制技术在有效性与计算成本方面如何比较?
  • RQ5当前提升GP一般化能力的方法存在哪些局限与开放性挑战?

主要发现

  • 膨胀与过拟合是导致GP解一般化能力下降的两个主导因素。
  • 基于适应度的膨胀控制技术(如简约性压力和外部适应度)被广泛使用,并在限制代码增长方面非常有效。
  • 过拟合最有效的缓解方式是通过多样化的训练数据、适应度函数中的正则化以及早停策略。
  • 结合多种评估指标(如测试误差与复杂度)可提供更稳健的一般化评估。
  • 尽管已有多种技术,但没有一种方法在所有问题领域中普遍优于其他方法,凸显了根据上下文选择技术的必要性。
  • 现有方法的局限性包括计算成本高、对参数调优敏感,以及在不同GP应用中缺乏通用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。