[논문 리뷰] DISCOVER: A Physics-Informed, GPU-Accelerated Symbolic Regression Framework
DISCOVER는 물리학, 화학 및 재료과학에서 확장 가능하고 해석 가능한 모델 발견을 가능하게 하는 물리정보 제약 및 선택적 GPU 가속을 도입한 오픈 소스 Python 네이티브 기호회귀 프레임워크입니다.
Symbolic Regression (SR) enables the discovery of interpretable mathematical relationships from experimental and simulation data. These relationships are often coined descriptors which are defined as a fundamental materials property that is directly correlated to a desired or undesired functional property of the material. Although established approaches such as Sure Independence Screening and Sparsifying Operator (SISSO) have successfully identified low-dimensional descriptors within large feature spaces many existing SR tools integrate poorly with modern Python workflows, offer limited control over the symbolic search space, or struggle with the computational demands of large-scale studies. This paper introduces DISCOVER (Data-Informed Symbolic Combination of Operators for Variable Equation Regression), an open-source symbolic regression package developed to address these challenges through a modular, physics-motivated design. DISCOVER allows users to guide the symbolic search using domain knowledge, constrain the feature space explicitly, and take advantage of optional GPU acceleration to improve computational efficiency in data-intensive workflows, enabling reproducible and scalable SR workflows. The software is intended for applications in computational physics, computational chemistry, and materials science, where interpretability, physical consistency, and execution time are especially important, and it complements general-purpose SR frameworks by emphasizing the discovery of physically meaningful models.
연구 동기 및 목표
- 데이터에서 해석 가능한 기호 표현을 과학 분야에서 가이드된 발견으로 이끌어 낼 수 있도록 한다.
- 물리정보 제약과 차원 분석을 통해 도메인 지식을 도입한다.
- 대규모 연구를 위한 선택적 GPU 가속이 가능한 모듈식의 파이썬 네이티브 설계를 제공한다.
제안 방법
- 사용자가 제공한 특징과 연산자 라이브러리로 후보 기호 표현식을 생성한다.
- 대상 데이터에 대해 표현식을 평가하여 희소하고 간결한 모델을 식별한다.
- 여러 희소화 탐색 전략을 구현한다 (예: OMP, MIQP, Simulated Annealing).
- 구성 기반 인터페이스와 pint 라이브러리를 이용한 차원 분석을 통해 물리정보 제약을 적용한다.
- NVIDIA CUDA 및 Apple Metal에서 GPU 가속을 지원하며, CPU 실행을 폴백으로 제공한다.
- 검색을 L0-regularized 최소자승 문제로 프레이밍하여 희소한 디스크립터 벡터를 찾는다.

실험 결과
연구 질문
- RQ1사용자 정의 물리 제약과 차원 일관성이 기호 회귀 검색을 어떻게 안내하여 물리적으로 의미 있는 모델을 생성하게 할 수 있는가?
- RQ2큰 특성 공간에서 제약된 기호 회귀의 효율성에 대한 하드웨어 가속의 영향은 무엇인가?
- RQ3구성 가능한 희소성과 연산자 제약을 통해 DISCOVER가 예측 정확도와 모델 해석 가능성의 균형을 이룰 수 있는가?
주요 결과
- 물리정보 제약과 하드웨어 가속 계산을 지원하는 Python-native SR 프레임워크를 제공한다.
- 희소 모델 발견을 위한 휴리스틱, 최적화 기반 및 확률적 접근법을 포함한 모듈식 탐색 전략을 제공한다.
- 탐색 초기에 물리적으로 무효한 표현식을 가지치기하기 위해 pint 라이브러리를 통해 차원 일관성을 통합한다.
- 데이터 집약적이고 과학 지향적 응용 분야를 위한 CPU 및 GPU에서 확장 가능한 기호 회귀 워크플로를 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.