QUICK REVIEW

[논문 리뷰] Semantics in Multi-objective Genetic Programming

Edgar Galván, Leonardo Trujillo|arXiv (Cornell University)|2021. 05. 06.

Evolutionary Algorithms and Applications참고 문헌 56인용 수 14

한 줄 요약

이 논문은 다목적 유전적 프로그래밍(MOGP)에서 의미적 다양성을 향상시키기 위해 첫 번째 파레토 최적 해역의 희박한 영역에서의 기준점(pivot)을 기준으로 한 의미적 거리 기반 기준(SDO)을 제안한다. SDO는 기존의 NSGA-II, SPEA2 및 기타 의미적 방법들과 비교해 초과 복제를 줄이고 하이퍼볼륨 성능을 크게 향상시키며, 특히 극도로 불균형한 데이터셋에서 뛰어난 성능을 보인다.

ABSTRACT

Semantics has become a key topic of research in Genetic Programming (GP). Semantics refers to the outputs (behaviour) of a GP individual when this is run on a data set. The majority of works that focus on semantic diversity in single-objective GP indicates that it is highly beneficial in evolutionary search. Surprisingly, there is minuscule research conducted in semantics in Multi-objective GP (MOGP). In this work we make a leap beyond our understanding of semantics in MOGP and propose SDO: Semantic-based Distance as an additional criteriOn. This naturally encourages semantic diversity in MOGP. To do so, we find a pivot in the less dense region of the first Pareto front (most promising front). This is then used to compute a distance between the pivot and every individual in the population. The resulting distance is then used as an additional criterion to be optimised to favour semantic diversity. We also use two other semantic-based methods as baselines, called Semantic Similarity-based Crossover and Semantic-based Crowding Distance. Furthermore, we also use the NSGA-II and the SPEA2 for comparison too. We use highly unbalanced binary classification problems and consistently show how our proposed SDO approach produces more non-dominated solutions and better diversity, leading to better statistically significant results, using the hypervolume results as evaluation measure, compared to the rest of the other four methods.

연구 동기 및 목표

다목적 유전적 프로그래밍(MOGP)에서 의미적 다양성이 다소 간과되고 있음에도 불구하고 단일목표 GP에서 성공을 거둔 바에도 불구하고, MOGP에서 의미적 다양성에 관한 연구가 부족한 문제를 해결하고자 한다.
의미 기반 메커니즘이 다목적 MOGP, 특히 극도로 불균형한 이진 분류 문제에서 다양성과 성능을 향상시킬 수 있는지 탐구하고자 한다.
통계적 엄밀함과 철저한 분석을 통해 SDO를 기존의 EMO 알고리즘(NSGA-II, SPEA2)과 두 가지 의미 기반 기준(SSF, SCD)과 비교 평가하고자 한다.
SDO가 다른 방법들보다 뛰어난 성능을 보이는 이유를 해석하기 위해 해답의 유일성, 복제 빈도, 트리 크기의 진화를 분석하고자 한다.

제안 방법

SDO는 첫 번째 파레토 최적 해역의 희박한 영역에서 선택된 기준점(pivot)으로부터 각 개체에 대한 의미적 거리를 계산한다.
이 의미적 거리는 EMO 알고리즘에 추가 목적함수로 사용되며, 의미적으로 독립적이고 희박한 영역에 집중하는 개체를 선호한다.
기준점은 세대가 진행됨에 따라 동적으로 갱신되어 첫 번째 파레토 최적 해역의 변화하는 희박성 특성을 반영한다.
SDO는 NSGA-II와 SPEA2에서의 코어딩 거리(crowding distance)를 의미적 거리로 대체하거나 보완하여 선택 및 다양성 유지에 도움을 준다.
비교를 위해 의미 유사성 기반 교차(SSC)와 의미 기반 코어딩 거리(SCD)를 의미 기반 기준으로 사용한다.
실험은 6개의 극도로 불균형한 데이터셋(Ion, Spect, Yeast1, Yeast2, Abal1, Abal2)을 대상으로 50번의 독립 실행을 실시하였으며, 주요 평가 지표로 하이퍼볼륨을 사용하였다.

실험 결과

연구 질문

RQ1단일목표 GP에서 효과적인 의미 유사성 기반 교차(SSC)가 다목적 MOGP 환경에서도 동일한 이점을 유지하는가?
RQ2첫 번째 파레토 최적 해역의 희박한 영역에 위치한 기준점 기반의 의미적 거리 측정법이 실제로 MOGP에서 의미적 다양성을 효과적으로 증진시킬 수 있는가?
RQ3제안된 SDO 방법은 기존의 EMO 알고리즘(NSGA-II, SPEA2)과 다른 의미 기반 방법(SSC, SCD)과 비교해 하이퍼볼륨과 해답 다양성 측면에서 어떻게 성능을 발휘하는가?
RQ4SDO가 해답의 유일성과 복제 감소 측면에서 다른 방법들보다 뛰어난 이유는 무엇이며, 트리 크기와 블로팅(bloat)에 어떤 영향을 미치는가?

주요 결과

SDO는 모든 6개의 데이터셋에서 NSGA-II, SPEA2, SSC, SCD보다 하이퍼볼륨 성능에서 유의미하게 뛰어나며, 유의수준 p < 0.05 범위 내에서 통계적으로 유의미한 향상이 있었다.
Abal2 데이터셋에서 SDO는 평균 하이퍼볼륨 0.815를 기록하여 NSGA-II의 0.741과 SPEA2의 0.762를 상회하였다.
SDO는 다른 방법들보다 해답의 복제를 더 효과적으로 줄였다: Ion 데이터셋에서 SDO의 평균 복제 빈도는 1.2였고, NSGA-II는 1.8, SPEA2는 1.6였다.
SDO는 세대가 진행됨에 따라 더 많은 고유한 해답을 생성하였으며, Abal1과 Abal2에서 NSGA-II 대비 복제 빈도가 40% 감소하였다.
SDO는 과도한 블로팅을 겪지 않았다: Abal2에서 SDO는 평균 약 35,000개의 노드를 평가하는 데 성공했고, 다른 방법들보다 더 많은 노드를 처리했지만 더 뛰어난 성능를 기록하여 성장이 기능적인 것이었음을 시사했다.
분석 결과 SDO는 파레토 최적 해역의 희박한 영역에 새로운 개체를 효과적으로 유인하여 군집화를 감소시키고 다양성을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.