[论文解读] Semantics in Multi-objective Genetic Programming
本文提出语义距离(Semantic-based Distance, SDO)作为多目标遗传编程(MOGP)中的附加准则,通过利用第一 Pareto 前沿最稀疏区域的基准点计算语义距离,以增强语义多样性。SDO 显著提升了超体积性能,并减少了与 NSGA-II、SPEA2 及其他语义方法相比的解重复现象,尤其在高度不平衡的数据集上表现突出。
Semantics has become a key topic of research in Genetic Programming (GP). Semantics refers to the outputs (behaviour) of a GP individual when this is run on a data set. The majority of works that focus on semantic diversity in single-objective GP indicates that it is highly beneficial in evolutionary search. Surprisingly, there is minuscule research conducted in semantics in Multi-objective GP (MOGP). In this work we make a leap beyond our understanding of semantics in MOGP and propose SDO: Semantic-based Distance as an additional criteriOn. This naturally encourages semantic diversity in MOGP. To do so, we find a pivot in the less dense region of the first Pareto front (most promising front). This is then used to compute a distance between the pivot and every individual in the population. The resulting distance is then used as an additional criterion to be optimised to favour semantic diversity. We also use two other semantic-based methods as baselines, called Semantic Similarity-based Crossover and Semantic-based Crowding Distance. Furthermore, we also use the NSGA-II and the SPEA2 for comparison too. We use highly unbalanced binary classification problems and consistently show how our proposed SDO approach produces more non-dominated solutions and better diversity, leading to better statistically significant results, using the hypervolume results as evaluation measure, compared to the rest of the other four methods.
研究动机与目标
- 为解决多目标遗传编程(MOGP)中语义研究不足的问题,尽管单目标 GP 中语义多样性已取得成功,但其在 MOGP 中仍缺乏深入探索。
- 探究基于语义的机制是否能提升 MOGP 中的多样性与性能,特别是在高度不平衡的二分类问题中。
- 通过统计严谨性与详细分析,评估并比较 SDO 与经典 EMO 算法(NSGA-II、SPEA2)及其他两种语义基线方法(SSC、SCD)的表现。
- 通过分析解的唯一性、重复频率及树结构演化,解释 SDO 为何优于其他方法。
提出的方法
- SDO 计算每个个体到从第一 Pareto 前沿最稀疏区域选取的基准点的语义距离。
- 该语义距离被用作 EMO 算法中的附加目标,优先选择语义上差异显著且趋向稀疏区域的个体。
- 基准点在各代之间动态更新,以反映第一 Pareto 前沿稀疏性的演化。
- 该方法替代或补充 NSGA-II 和 SPEA2 中的拥挤距离,利用语义距离指导选择与多样性保持。
- 语义相似性交叉(SSC)与基于语义的拥挤距离(SCD)被用作对比的基线语义方法。
- 实验在六个高度不平衡的数据集(Ion、Spect、Yeast1、Yeast2、Abal1、Abal2)上进行 50 次独立运行,以超体积作为主要评估指标。
实验结果
研究问题
- RQ1在单目标 GP 中表现有效的语义相似性交叉(SSC),在多目标 MOGP 环境中是否仍保持其优势?
- RQ2基于第一 Pareto 前沿最稀疏区域中基准点计算的语义距离度量,能否有效促进 MOGP 中的语义多样性?
- RQ3所提出的 SDO 方法在超体积与解多样性方面,相较于经典 EMO 算法(NSGA-II、SPEA2)及其他语义方法(SSC、SCD)表现如何?
- RQ4SDO 在解唯一性与重复减少方面为何优于其他方法?其对树结构大小与膨胀(bloat)有何影响?
主要发现
- 在全部六个数据集上,SDO 在超体积方面显著优于 NSGA-II、SPEA2、SSC 与 SCD,且差异具有统计显著性(p < 0.05)。
- 在 Abal2 数据集上,SDO 达到最高超体积,均值为 0.815,而 NSGA-II 为 0.741,SPEA2 为 0.762。
- SDO 更有效地减少了解重复:在 Ion 数据集上,SDO 的平均重复频率为 1.2,而 NSGA-II 为 1.8,SPEA2 为 1.6。
- SDO 在各代中产生了更多唯一解,在 Abal1 与 Abal2 上相比 NSGA-II,重复频率降低了 40%。
- SDO 未出现过度膨胀现象:在 Abal2 上,其平均节点评估数约 35,000,高于其他方法,但性能更优,表明增长具有功能性,而非无效膨胀。
- 分析表明,SDO 有效吸引新个体进入 Pareto 前沿的稀疏区域,减少聚类现象,提升多样性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。