Skip to main content
QUICK REVIEW

[論文レビュー] VaSST: Variational Inference for Symbolic Regression using Soft Symbolic Trees

Somjit Roy, Pritam Dey|arXiv (Cornell University)|Feb 27, 2026
Machine Learning in Materials Science被引用数 0
ひとこと要約

VaSSTは連続的緩和(ソフト記号木)と変分推論を用いた記号回帰のスケーラブルな確率的枠組みを提供し、不確実性の定量化と構造発見および予測精度の改善を可能にする。

ABSTRACT

Symbolic regression has recently gained traction in AI-driven scientific discovery, aiming to recover explicit closed-form expressions from data that reveal underlying physical laws. Despite recent advances, existing methods remain dominated by heuristic search algorithms or data-intensive approaches that assume low-noise regimes and lack principled uncertainty quantification. Fully probabilistic formulations are scarce, and existing Markov chain Monte Carlo-based Bayesian methods often struggle to efficiently explore the highly multimodal combinatorial space of symbolic expressions. We introduce VaSST, a scalable probabilistic framework for symbolic regression based on variational inference. VaSST employs a continuous relaxation of symbolic expression trees, termed soft symbolic trees, where discrete operator and feature assignments are replaced by soft distributions over allowable components. This relaxation transforms the combinatorial search over an astronomically large symbolic space into an efficient gradient-based optimization problem while preserving a coherent probabilistic interpretation. The learned soft representations induce posterior distributions over symbolic structures, enabling principled uncertainty quantification. Across simulated experiments and Feynman Symbolic Regression Database within SRBench, VaSST achieves superior performance in both structural recovery and predictive accuracy compared to state-of-the-art symbolic regression methods.

研究の動機と目的

  • データから principled な不確実性と解釈性を伴う明示的な支配方程式を回復する。
  • ヒューリスティックでデータ集約的なSR手法の限界を克服し、確率的枠組みを提供する。
  • 記号木の連続緩和を用いて勾配ベースの最適化を可能にし、スケーラブルな推論を実現する。
  • 事後分布を通じた記号構造の不確実性定量化を提供する。
  • 解釈可能性の高い式を促進するようモデルの複雑さを制御する。

提案手法

  • データ上で評価される K 本の記号木の森林として記号空間を表現する。
  • ベイズ線形回帰風の段階で回帰係数とノイズ分散に対して正規-逆ガンマ共役事前分布を使用する。
  • 各記号木を深さ D の完全な二分スケルトンに埋め込み、妥当な木となるように決定論的な剪定ステップを適用する。
  • バイナリ・コンクリートおよびガンベル・ソフトマックスの緩和を適用して離散的にインデックス付けされた選択肢(展開、演算子、特徴)をソフトな記号木として導入する。
  • ソフト木を評価してソフト設計行列 T_soft を生成し、黒箱的変分推論と確率勾配法で ELBO を最適化する。
  • 学習された変分後方分布からハードな記号木をサンプリングし、インサンプル RMSE が良好なモデルを選択して不確実性を推定する。
Figure 3: Computational scalability of $\mathsf{VaSST}$ , BMS , BSR .
Figure 3: Computational scalability of $\mathsf{VaSST}$ , BMS , BSR .

実験結果

リサーチクエスチョン

  • RQ1VaSSTは discovered 構造の不確実性定量化を提供しつつ、基礎的な記号式を正確に回復できるか?
  • RQ2VaSSTの予測性能と構造回復は最先端の記号回帰法と比較してどうか?
  • RQ3連続緩和とアニールスキームを通じて、VaSSTは現実的な記号空間にスケーラブルでノイズに強いか?
  • RQ4深さ依存の事前分布が発見された式の簡潔性と解釈性に与える影響は何か?

主な発見

  • VaSSTは構造回復と予測精度の両方で、合成実験およびSRBench内のファイナリ・シンボリック回帰データベースで優れた性能を達成する。
  • この枠組みは、記号構造上の事後分布を誘導することによって principled な不確実性定量化を提供する。
  • VaSSTは、報告された比較において QLattice、gplearn、DEAP、BMS、BSR などのいくつかの最先端SR法よりも優れている。
  • 構造的簡潔性は、木の深さを正則化する深さ依存の事前分布によって促進され、オckamの剃刀に沿う。
  • ソフトな探索構成から離散近傍へ徐々に移行するアニールスケジュールが安定した学習を支援する。
  • 学習後分布からサンプリングされたハード記号木は、不確実性を考慮したモデル選択と解釈を可能にする。
Figure I.1: Out-of-sample RMSEs over $10$ repetitions of a $90/10$ train-test split for $\mathsf{VaSST}$ ( $K=3$ and $D=3$ ) and competing methods across varying noise settings while learning $\mathbf{y}=\mathbf{x}_{0}^{2}-\mathbf{x}_{1}+\tfrac{1}{2}\mathbf{x}_{2}^{2}$ in ( 24 ).
Figure I.1: Out-of-sample RMSEs over $10$ repetitions of a $90/10$ train-test split for $\mathsf{VaSST}$ ( $K=3$ and $D=3$ ) and competing methods across varying noise settings while learning $\mathbf{y}=\mathbf{x}_{0}^{2}-\mathbf{x}_{1}+\tfrac{1}{2}\mathbf{x}_{2}^{2}$ in ( 24 ).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。