[논문 리뷰] Model-based Genetic Programming with GOMEA for Symbolic Regression of Small Expressions
이 논문은 작은 해석 가능한 표현을 위한 기호 회귀(SR)의 성능을 향상시키기 위해 GOMEA 프레임워크 내에서 새로운 연결 학습(LL) 방법을 제안한다. 유전자형 비균형 문제를 보정하고 일시적 난수 상수를 통해 LL를 향상시킴으로써, 전통적 및 의미 기반 GP에 비해 GOMEA가 우수한 성능을 발휘하며, 엄격한 크기 제약 조건 하에서 10개의 실세계 데이터셋에서 튜닝된 결합 트리보다 뛰어난 성능을 보였다.
The Gene-pool Optimal Mixing Evolutionary Algorithm (GOMEA) is a model-based EA framework that has been shown to perform well in several domains, including Genetic Programming (GP). Differently from traditional EAs where variation acts blindly, GOMEA learns a model of interdependencies within the genotype, i.e., the linkage, to estimate what patterns to propagate. In this article, we study the role of Linkage Learning (LL) performed by GOMEA in Symbolic Regression (SR). We show that the non-uniformity in the distribution of the genotype in GP populations negatively biases LL, and propose a method to correct for this. We also propose approaches to improve LL when ephemeral random constants are used. Furthermore, we adapt a scheme of interleaving runs to alleviate the burden of tuning the population size, a crucial parameter for LL, to SR. We run experiments on 10 real-world datasets, enforcing a strict limitation on solution size, to enable interpretability. We find that the new LL method outperforms the standard one, and that GOMEA outperforms both traditional and semantic GP. We also find that the small solutions evolved by GOMEA are competitive with tuned decision trees, making GOMEA a promising new approach to SR.
연구 동기 및 목표
- 유전자가 비균형적인 분포를 띠는 GP 집단에서 연결 학습(LL)에 어떤 편향이 발생하는지 조사하기 위해.
- GP에서 일시적 난수 상수를 사용할 경우 효과적인 연결 학습에 어떤 도전 과제가 존재하는지 해결하기 위해.
- 인터리브드 런 전략을 통해 모델 기반 GP의 인구 수 조정에 대한 민감도를 줄이기 위해.
- 정확도와 간결성의 균형을 고려해 엄격한 크기 제약 조건 하에서 기호 회귀 성능을 평가하기 위해.
제안 방법
- GP 집단에서 발생하는 비균형적인 유전자형 분포로 인한 편향을 줄이기 위한 보정 방법을 제안한다.
- 유전자형의 연결성을 유지함으로써 일시적 난수 상수의 영향력을 보존하도록 GOMEA 프레임워크를 수정하여, 이들의 영향을 효과적으로 반영하도록 한다.
- 수동적인 인구 수 조정에 의존도를 줄이고 다양한 문제 유형에 대해 더 견고한 성능을 내기 위해 인터리브드 런 전략을 도입한다.
- 모델 기반 최적화를 통해 GOMEA가 유전자형 내 연결 구조를 학습하고 활용함으로써 맹목적인 변형보다 더 효과적인 탐색을 유도한다.
- 작은 표현 크기 제약 조건을 강제 적용하여 기호 회귀 작업에 개선된 GOMEA 프레임워크를 적용한다.
- 10개의 실세계 데이터셋을 사용하여 제어된 조건 하에서 작은 표현 제약 조건을 충족하는 성능을 평가한다.
실험 결과
연구 질문
- RQ1유전자형 비균형이 GP 집단의 연결 학습에 어떤 영향을 미치며, 이를 보정함으로써 모델 정확도를 향상시킬 수 있는가?
- RQ2일시적 난수 상수가 GP에서 효과적인 연결 학습을 방해하는 정도는 어느 정도이며, 이를 어떻게 완화할 수 있는가?
- RQ3인터리브드 런 전략은 GOMEA의 인구 수 조정 민감도를 줄이는 데 효과적인가?
- RQ4제안된 GOMEA 기반 기호 회귀 방법은 엄격한 크기 제약 조건 하에서 실세계 데이터셋에서 전통적 및 의미 기반 GP에 비해 성능 면에서 어떻게 비교되는가?
주요 결과
- 제안된 연결 학습 보정 방법은 표준 GOMEA의 LL 방법에 비해 기호 회귀에서 성능 향상이著명하다.
- 개선된 LL 방법을 적용한 GOMEA는 엄격한 표현 크기 제한 하에서 10개의 실세계 데이터셋 전부에서 전통적 및 의미 기반 GP를 모두 압도한다.
- GOMEA가 유도한 작은 표현들은 튜닝된 결합 트리와 경쟁 가능하며, 뛀난 일반화 능력과 해석 가능성의 잠재력을 보여준다.
- 인터리브드 런 전략은 인구 수 조정의 부담을 효과적으로 줄여 다양한 문제 유형에 걸쳐 더 견고한 성능을 제공한다.
- 수정된 연결 모델은 일시적 난수 상수의 사용을 더 잘 지원하여 더 효과적인 탐색과 향상된 해답 품질을 이끌어낸다.
- 결과는 연결 학습을 강화한 모델 기반 GP가 특히 해석 가능성의 중요성이 높은 상황에서 기호 회귀에 매우 유망한 접근법임을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.