Skip to main content
QUICK REVIEW

[论文解读] VaSST: Variational Inference for Symbolic Regression using Soft Symbolic Trees

Somjit Roy, Pritam Dey|arXiv (Cornell University)|Feb 27, 2026
Machine Learning in Materials Science被引用 0
一句话总结

VaSST 提供一个可扩展的概率框架,用于符号回归,利用连续放松(软符号树)和变分推断,实现不确定性量化、结构发现和预测精度的提升。

ABSTRACT

Symbolic regression has recently gained traction in AI-driven scientific discovery, aiming to recover explicit closed-form expressions from data that reveal underlying physical laws. Despite recent advances, existing methods remain dominated by heuristic search algorithms or data-intensive approaches that assume low-noise regimes and lack principled uncertainty quantification. Fully probabilistic formulations are scarce, and existing Markov chain Monte Carlo-based Bayesian methods often struggle to efficiently explore the highly multimodal combinatorial space of symbolic expressions. We introduce VaSST, a scalable probabilistic framework for symbolic regression based on variational inference. VaSST employs a continuous relaxation of symbolic expression trees, termed soft symbolic trees, where discrete operator and feature assignments are replaced by soft distributions over allowable components. This relaxation transforms the combinatorial search over an astronomically large symbolic space into an efficient gradient-based optimization problem while preserving a coherent probabilistic interpretation. The learned soft representations induce posterior distributions over symbolic structures, enabling principled uncertainty quantification. Across simulated experiments and Feynman Symbolic Regression Database within SRBench, VaSST achieves superior performance in both structural recovery and predictive accuracy compared to state-of-the-art symbolic regression methods.

研究动机与目标

  • 从数据中以原理性的不确定性和可解释性恢复显式的控制方程。
  • 通过提供一个概率框架,克服启发式和数据密集型 SR 方法的局限性。
  • 通过对符号树的连续放松实现可扩展的梯度优化推断。
  • 通过后验分布对符号结构进行不确定性量化。
  • 控制模型复杂度以促进简约、可解释的表达式。

提出的方法

  • 将符号空间表示为在数据上评估的 K 棵符号树的森林。
  • 在贝叶斯线性回归阶段,对回归系数和噪声方差使用 Normal-Inverse-Gamma 先验。
  • 将每棵符号树嵌入到深度为 D 的完整二叉骨架中,并通过确定性裁剪步骤形成有效树。
  • 通过对离散索引的选择(扩展、运算符、特征)应用 Binary Concrete 和 Gumbel-Softmax 放松,引入软符号树。
  • 评估软树以产生软设计矩阵 T_soft,并通过带随机梯度的黑盒变分推断来优化 ELBO。
  • 通过从学到的变分后验中采样硬符号树来估计不确定性,并选择在样本内 RMSE 较有利的模型。
Figure 3: Computational scalability of $\mathsf{VaSST}$ , BMS , BSR .
Figure 3: Computational scalability of $\mathsf{VaSST}$ , BMS , BSR .

实验结果

研究问题

  • RQ1VaSST 是否能够在提供对发现的结构的不确定性量化的同时,准确恢复潜在的符号表达式?
  • RQ2VaSST 的预测性能和结构恢复与最先进的符号回归方法相比如何?
  • RQ3借助其连续放松和退火方案,VaSST 是否可扩展到现实的符号空间并对噪声具有鲁棒性?
  • RQ4深度相关的先验对发现表达式的简约性和可解释性有何影响?

主要发现

  • VaSST 在结构恢复和预测精度方面在仿真实验和 SRBench 的 Feynman 符号回归数据库上均表现出色。
  • 该框架通过对符号结构引入后验分布,实现原理性的不确定性量化。
  • 在已报道的比较中,VaSST 的性能优于若干最先进的 SR 方法,包括 QLattice、gplearn、DEAP、BMS 和 BSR。
  • 通过一个深度相关的先验来规范树的深度,从而促进结构简约性,与奥卡姆剃刀原理一致。
  • 一个退火计划逐渐从软、探索配置过渡到接近离散树的状态,有助于稳定学习。
  • 从学到的后验中采样的硬符号树使得基于不确定性的模型选择和解释成为可能。
Figure I.1: Out-of-sample RMSEs over $10$ repetitions of a $90/10$ train-test split for $\mathsf{VaSST}$ ( $K=3$ and $D=3$ ) and competing methods across varying noise settings while learning $\mathbf{y}=\mathbf{x}_{0}^{2}-\mathbf{x}_{1}+\tfrac{1}{2}\mathbf{x}_{2}^{2}$ in ( 24 ).
Figure I.1: Out-of-sample RMSEs over $10$ repetitions of a $90/10$ train-test split for $\mathsf{VaSST}$ ( $K=3$ and $D=3$ ) and competing methods across varying noise settings while learning $\mathbf{y}=\mathbf{x}_{0}^{2}-\mathbf{x}_{1}+\tfrac{1}{2}\mathbf{x}_{2}^{2}$ in ( 24 ).

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。