Skip to main content
QUICK REVIEW

[논문 리뷰] Symbolic Regression via Neural-Guided Genetic Programming Population Seeding

T. Nathan Mundhenk, Mikel Landajuela|arXiv (Cornell University)|2021. 10. 29.
Evolutionary Algorithms and Applications인용 수 37
한 줄 요약

신경 가이드 탐색 샘플링으로 시드된 유전 프로그래밍 인구를 진화시켜 심볼릭 회귀 성능을 개선하는 하이브리드 접근법.

ABSTRACT

Symbolic regression is the process of identifying mathematical expressions that fit observed output from a black-box process. It is a discrete optimization problem generally believed to be NP-hard. Prior approaches to solving the problem include neural-guided search (e.g. using reinforcement learning) and genetic programming. In this work, we introduce a hybrid neural-guided/genetic programming approach to symbolic regression and other combinatorial optimization problems. We propose a neural-guided component used to seed the starting population of a random restart genetic programming component, gradually learning better starting populations. On a number of common benchmark tasks to recover underlying expressions from a dataset, our method recovers 65% more expressions than a recently published top-performing model using the same experimental setup. We demonstrate that running many genetic programming generations without interdependence on the neural-guided component performs better for symbolic regression than alternative formulations where the two are more strongly coupled. Finally, we introduce a new set of 22 symbolic regression benchmark problems with increased difficulty over existing benchmarks. Source code is provided at www.github.com/brendenpetersen/deep-symbolic-optimization.

연구 동기 및 목표

  • 신경-guided search와 genetic programming seed를 결합하여 NP-hard symbolic regression 문제를 동기부여하고 해결한다.
  • 자가회귀 신경 시퀀스 생성기가 GP 집단에 시드를 제공하고, 이후 그것이 진화하여 신경 트레이너에 정보를 전달한다.
  • 신경 가이드 시딩으로 다수의 GP 세대가 강하게 결합된 대안들을 능가하고 탐색을 개선한다는 것을 보여준다.

제안 방법

  • 표현식을 선행 순회(pre-order traversal)로 구성된 대수 표현 트리로 표현한다.
  • 시퀀스 생성기로 자회귀 RNN을 사용하여 후보 표현식 배치를 방출한다.
  • RNN 배치로 GP 시작 인구를 시드하고 S GP 세대를 수행한다.
  • NRMS E 기반 적합도로 표현식을 평가하고 보상 R(τ)=1/(1+NRMSE)로 변환한다.
  • 다음 세 가지 옵션으로 RNN을 학습한다: Vanilla Policy Gradient (VPG), Risk-Seeking Policy Gradient (RSPG), 또는 Priority Queue Training (PQT).
  • GP 연산을 작업 특성 제약을 충족하도록 제약하고 다양성을 위한 다중 돌연변이 유형을 허용한다.

실험 결과

연구 질문

  • RQ1신경 가이드 샘플링이 GP 집단에 효과적으로 시드를 제공하여 심볼릭 회귀 회복률을 개선할 수 있는가?
  • RQ2RNN 학습 단계당 GP 세대 수(S)를 다르게 하는 것이 성능과 탐색에 어떤 영향을 미치는가?
  • RQ3느슨하게 결합된 하이브리드(GP_seeded-RNN 학습)가 심볼릭 회귀에 대해 촘촘히 결합된 또는 단일 구성요소 접근법보다 더 효과적인가?
  • RQ4다른 RNN 학습 전략(VPG, RSPG, PQT)이 이 하이브리드 설계의 전반적 성능에 어떤 영향을 미치는가?
  • RQ5제약과 다양한 GP 돌연변이 연산자가 회복 및 일반화에 의미 있게 기여하는가?

주요 결과

  • 제안된 하이브리드 방법은 동일 설정에서 일반 벤치마크에서 최근 최고 성능 모델보다 65% 더 많은 표현식을 회복한다.
  • GP는 점진적으로 학습된 RNN 샘플에 의해 시드된 무작위 재시작 유사 루프 내에서 작동하여 시간이 지남에 따라 더 나은 시작 인구를 가능하게 한다.
  • 신경 구성요소에 대한 강한 상호 의존성 없이 다수의 GP 세대를 실행하면 촘촘히 결합된 변형보다 우수할 수 있다.
  • Nguyen 벤치마크 문제에서 이 방법은 DSR, PQT, VPG, GP, Eureqa 등을 포함한 여러 베이스라인보다 회복률이 더 높아 평균 이득을 얻었다.
  • 난이도 증가 벤치마크 세트인 Livermore 벤치마크를 도입하여 심볼릭 회귀 방법을 스트레스 테스트했다.
  • 분해 분석은 PQT, 적절한 GP 다양성, 제약 강제 적용이 견고한 성능에 기여함을 보여주고, 완전히 on-policy 또는 off-policy 극단은 결과를 악화시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.