QUICK REVIEW

[논문 리뷰] VaSST: Variational Inference for Symbolic Regression using Soft Symbolic Trees

Somjit Roy, Pritam Dey|arXiv (Cornell University)|2026. 02. 27.

Machine Learning in Materials Science인용 수 0

한 줄 요약

VaSST는 연속 이완(소프트 기호 트리)과 변분 추론을 이용한 기호 회귀를 위한 확장 가능한 확률적 프레임워크를 제공하며 불확실성 정량화와 구조 발견의 개선 및 예측 정확도를 가능하게 한다.

ABSTRACT

Symbolic regression has recently gained traction in AI-driven scientific discovery, aiming to recover explicit closed-form expressions from data that reveal underlying physical laws. Despite recent advances, existing methods remain dominated by heuristic search algorithms or data-intensive approaches that assume low-noise regimes and lack principled uncertainty quantification. Fully probabilistic formulations are scarce, and existing Markov chain Monte Carlo-based Bayesian methods often struggle to efficiently explore the highly multimodal combinatorial space of symbolic expressions. We introduce VaSST, a scalable probabilistic framework for symbolic regression based on variational inference. VaSST employs a continuous relaxation of symbolic expression trees, termed soft symbolic trees, where discrete operator and feature assignments are replaced by soft distributions over allowable components. This relaxation transforms the combinatorial search over an astronomically large symbolic space into an efficient gradient-based optimization problem while preserving a coherent probabilistic interpretation. The learned soft representations induce posterior distributions over symbolic structures, enabling principled uncertainty quantification. Across simulated experiments and Feynman Symbolic Regression Database within SRBench, VaSST achieves superior performance in both structural recovery and predictive accuracy compared to state-of-the-art symbolic regression methods.

연구 동기 및 목표

데이터에서 principled 불확실성과 해석 가능성을 갖춘 명시적 지배 방정식을 회복한다.
휴리스틱하고 데이터 집약적 SR 방법의 한계를 probabilistic 프레임워크를 제시함으로써 극복한다.
기호 트리의 연속 이완을 통해 gradient-based 최적화를 가능하게 하여 scalable 추론을 Enable한다.
후방 분포를 통해 기호 구조에 대한 불확실성 정량화를 제공한다.
모델 복잡성을 제어하여 간결하고 해석 가능한 표현을 촉진한다.

제안 방법

Symbolic 공간을 데이터에 대해 평가되는 K개의 기호 트리의 숲으로 Represent 한다.
회귀 계수와 노이즈 분산에 대해 Normal-Inverse-Gamma prior를 사용하고 Bayesian linear-regression-like 단계에서 수행한다.
각 기호 트리를 깊이 D의 전체 이진 골격으로 내장하고 유효한 트리를 형성하기 위한 결정적 가지치기 단계를 적용한다.
Binary Concrete 및 Gumbel-Softmax 이완을 적용해 이산적으로 색인된 선택(확장, 연산자, 특징)에 Soft 기호 트리를 도입한다.
Soft 트리를 평가하여 Soft design matrix T_soft를 생성하고 black-box variational inference와 확률적 경사 방법으로 ELBO를 최적화한다.
학습된 변분 사후 분포에서 Hard 기호 트리를 샘플링하고 표본 내 RMSE가 우수한 모델을 선택해 불확실성을 추정한다.

Figure 3: Computational scalability of $\mathsf{VaSST}$ , BMS , BSR .

실험 결과

연구 질문

RQ1VaSST가 발견된 구조에 대한 불확실성 정량화를 제공하면서 근본적인 기호 표현을 정확하게 복원할 수 있는가?
RQ2VaSST의 예측 성능과 구조 회복이 최첨단 기호 회귀 방법과 비교해 어떠한가?
RQ3연속 이완과 어닐링 스킴을 통해 실용적인 기호 공간에 확장 가능하고 노이즈에 강한가?
RQ4발견된 표현의 간결성과 해석 가능성에 대한 깊이 의존 prior가 미치는 영향은 무엇인가?

주요 결과

VaSST는 구조 회복 및 예측 정확도 측면에서 시뮬레이션 실험과 Feynman Symbolic Regression Database의 SRBench에서 우수한 성능을 달성한다.
프레임워크는 기호 구조에 대한 후방 분포를 유도하여 principled한 불확실성 정량화를 제공한다.
VaSST는 QLattice, gplearn, DEAP, BMS, BSR 등 여러 최첨단 SR 방법과의 비교에서 우수한 성능을 보인다.
구조적 간결성은 트리 깊이를 규제하는 depth-dependent prior에 의해 촉진되며 Occam의 면도날과 일치한다.
소프트 구성에서 거의 이산 트리로의 점진적 전환을 가능하게 하는 어닐링 스케줄이 안정적 학습에 기여한다.
학습된 사후로부터 샘플링된 Hard 기호 트리는 불확실성 정보에 기반한 모델 선택 및 해석을 가능하게 한다.

Figure I.1: Out-of-sample RMSEs over $10$ repetitions of a $90/10$ train-test split for $\mathsf{VaSST}$ ( $K=3$ and $D=3$ ) and competing methods across varying noise settings while learning $\mathbf{y}=\mathbf{x}_{0}^{2}-\mathbf{x}_{1}+\tfrac{1}{2}\mathbf{x}_{2}^{2}$ in ( 24 ).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.