QUICK REVIEW

[논문 리뷰] AI Feynman 2.0: Pareto-optimal symbolic regression exploiting graph modularity

Silviu‐Marian Udrescu, Andrew Y. Y. Tan|arXiv (Cornell University)|2020. 06. 18.

Model Reduction and Neural Networks참고 문헌 36인용 수 85

한 줄 요약

한 개선된 기호 회귀 방법으로 그래프 모듈러리티를 활용해 파레토 최적의 공식을 찾고, 그래디언트 기반 대칭성 탐지, 파레토 프런티어 가지치기, 가설 검정, 샘플로부터의 분포를 처리하기 위한 노멀라이징 플로우를 사용합니다.

ABSTRACT

We present an improved method for symbolic regression that seeks to fit data to formulas that are Pareto-optimal, in the sense of having the best accuracy for a given complexity. It improves on the previous state-of-the-art by typically being orders of magnitude more robust toward noise and bad data, and also by discovering many formulas that stumped previous methods. We develop a method for discovering generalized symmetries (arbitrary modularity in the computational graph of a formula) from gradient properties of a neural network fit. We use normalizing flows to generalize our symbolic regression method to probability distributions from which we only have samples, and employ statistical hypothesis testing to accelerate robust brute-force search.

연구 동기 및 목표

과학 데이터를 위한 자동화되고 해석 가능한 기호 회귀 개발의 필요성 제시.
노이즈와 이상치에 대한 강인성을 높이는 모듈러리티 감지 기반의 분할-정복 회귀 프레임워크를 설명한다.
모델의 단순성과 정확도의 균형을 맞추기 위한 파레토 프런티어 기준을 도입한다.
샘플로부터 분포를 학습하기 위해 노멀라이징 플로우를 활용한 기호 회귀 확장.

제안 방법

신경망의 그래디언트로부터 추론된 계산 그래프의 모듈러리티를 사용하여 목표 함수를 재귀적으로 분해한다.
서술 길이를 기반으로 한 파레토 프런티어 기준을 채택하여 단순성 및 정확성에 따라 후보를 가지치기한다( MEDL 기반 손실).
고정 임계값 대신 통계적 가설 검정을 사용하여 프런티어가 아닌 후보를 강건하게 기각한다.
샘플로부터 분포를 적합시키기 위해 노멀라이징 플로우를 활용하여 확률 밀도 회귀를 가능하게 한다.
모르는 함수를 근사하기 위해 완전 연결 신경망을 학습하고 그래디언트 기반 시험(구성성, 일반화된 대칭성, 일반화된 가법성)으로 모듈러리티를 검증한다.
각 병합 후 파레토 지배 모델을 가지치기하는 탐색을 구현하고 매개 변수 스냅핑과 그래디언트 기반 정교화를 적용하는 탐색을 도입한다.

실험 결과

연구 질문

RQ1그래디언트 기반 분석이 목표 함수의 계산 그래프에서 모듈러 구조를 드러낼 수 있는가?
RQ2파레토 최적의 정보 이론적 목표가 기호 회귀에서 노이즈와 이상치에 대한 강인성을 향상시키는가?
RQ3노멀라이징 플로우가 샘플로부터 확률 분포를 학습하도록 기호 회귀를 확장할 수 있는가?
RQ4입력 차원수와 목표 표현식의 복잡성에 따라 방법의 확장성은 어떻게 되는가?
RQ5물리 기반 방정식에 대한 모듈러리티 기반 기호 회귀의 성공 및 실패 모드는 무엇인가?

주요 결과

본 방법은 표준 편차 10^(-1)의 가우시안 노이즈를 가진 100개의 벤치라인 문제 중 73개를 해결하여 강인한 기호 회귀를 달성한다.
이전 연구가 해결하지 못한 추가 수수께끼를 해결하며, Schmidt & Lipson(2009)이 다룬 17개 문제와 추가 사례를 최대 두 시간의 실행 시간 이내에 해결한다.
다양한 그래프 모듈러리티(T, S, P, G, M, C, A)를 가진 새로운 테스트 방정식에서 이 방법은 올바른 형태와 매개변수를 발견하고, 종종 기본 대칭성에 일치한다.
노멀라이징 플로우를 사용하면 샘플로부터 확률 분포를 회귀할 수 있어 Table 5에 나열된 분포의 80%를 10^2에서 10^5 샘플로 해결한다.
MEDL 기반 손실과 파레토 프런티어 가지치기에 의존함으로써 이전 방법에 비해 이상치와 노이즈에 대한 민감도를 줄여 강인성을 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.