[论文解读] AI Feynman 2.0: Pareto-optimal symbolic regression exploiting graph modularity
一种改进的符号回归方法,通过利用图模块性、使用基于梯度的对称性检测、Pareto前沿修剪、假设检验,以及正则化流来处理样本分布,从而找到Pareto最优公式。
We present an improved method for symbolic regression that seeks to fit data to formulas that are Pareto-optimal, in the sense of having the best accuracy for a given complexity. It improves on the previous state-of-the-art by typically being orders of magnitude more robust toward noise and bad data, and also by discovering many formulas that stumped previous methods. We develop a method for discovering generalized symmetries (arbitrary modularity in the computational graph of a formula) from gradient properties of a neural network fit. We use normalizing flows to generalize our symbolic regression method to probability distributions from which we only have samples, and employ statistical hypothesis testing to accelerate robust brute-force search.
研究动机与目标
- 激发开发面向科学数据的自动化、可解释的符号回归。
- 描述一个具模块性感知的分而治之的回归框架,提升对噪声和离群值的鲁棒性。
- 引入Pareto前沿标准以平衡模型简洁性和准确性。
- 扩展符号回归以利用正则化流从样本学习分布。
提出的方法
- 利用从神经网络梯度推断的计算图中的模块性,递归地分解神秘函数。
- 采用基于描述长度的Pareto前沿标准,通过简洁性和准确性来修剪候选项(基于MEDL的损失)。
- 使用统计假设检验来稳健地拒绝非前沿的候选项,而不是使用固定阈值。
- 使用正则化流来拟合来自样本的分布,从而实现对概率密度的回归。
- 训练一个全连接神经网络来近似未知函数,并通过基于梯度的测试(组合性、广义对称性、广义可加性)来检验模块性。
- 实现一种贪婪、可扩展的搜索,在每次合并步骤后剪除Pareto支配的模型,并应用参数定格和基于梯度的细化。
实验结果
研究问题
- RQ1基于梯度的分析是否能够揭示目标函数计算图中的模块结构?
- RQ2Pareto最优、信息理论的目标是否能提高符号回归对噪声和离群值的鲁棒性?
- RQ3正则化流是否能够将符号回归扩展为从样本学习概率分布?
- RQ4该方法随输入维度和目标表达式复杂度的增加如何扩展?
- RQ5基于模块性的符号回归在物理启发的方程上的成功模式和失败模式是什么?
主要发现
- 该方法通过解决100个基线问题中的73个,在高斯噪声标准差为10^(-1)的情况下实现了鲁棒的符号回归(r = -1)。
- 它解决了先前工作无法解决的额外谜题,包括Schmidt & Lipson (2009)所处理的全部17个问题及额外案例,在最多两小时运行时间内。
- 在具有不同图模块性(T、S、P、G、M、C、A)的新测试方程中,该方法发现了正确的形式和参数,往往与潜在对称性相匹配。
- 使用正则化流,该方法能够从样本回归概率分布,使用Table 5中列出的分布在10^2到10^5个样本下解决80%的分布。
- 该方法通过依赖基于MEDL的损失和Pareto前沿修剪来提高鲁棒性,降低对离群值和噪声的敏感性,相较于先前的方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。