[论文解读] Robust data-driven discovery of governing physical laws using a new subsampling-based sparse Bayesian method to tackle four challenges (large noise, outliers, data integration, and extrapolation)
本文提出SubTSBR,一种基于子采样的稀疏贝叶斯回归方法,在高斯噪声、异常值、数据融合及外推场景下,显著提升了数据驱动发现控制物理定律的鲁棒性。通过优化子采样大小和子样本次数,SubTSBR在四个基准物理模型中,均优于标准TSBR,在从噪声或损坏数据中识别精确微分方程方面表现更优。
Data-driven discovery of differential equations has been an emerging research topic. We propose a novel algorithm subsampling-based threshold sparse Bayesian regression (SubTSBR) to tackle high noise and outliers. The subsampling technique is used for improving the accuracy of the Bayesian learning algorithm. It has two parameters: subsampling size and the number of subsamples. When the subsampling size increases with fixed total sample size, the accuracy of our algorithm goes up and then down. When the number of subsamples increases, the accuracy of our algorithm keeps going up. We demonstrate how to use our algorithm step by step and compare our algorithm with threshold sparse Bayesian regression (TSBR) for the discovery of differential equations. We show that our algorithm produces better results. We also discuss the merits of discovering differential equations from data and demonstrate how to discover models with random initial and boundary condition as well as models with bifurcations. The numerical examples are: (1) predator-prey model with noise, (2) shallow water equations with outliers, (3) heat diffusion with random initial and boundary condition, and (4) fish-harvesting problem with bifurcations.
研究动机与目标
- 解决数据驱动发现物理定律所面临的挑战,包括高斯噪声、异常值、数据融合及模型外推。
- 提升稀疏贝叶斯回归在从不完美数据中识别控制微分方程时的准确性和鲁棒性。
- 开发一种新颖的基于子采样的方法,以增强贝叶斯学习的稳定性和收敛性。
- 在具有不同初始/边界条件和分岔行为的多样化物理系统中,验证该方法的有效性。
- 提供一个对数据缺陷具有鲁棒性且可扩展至实际应用的系统化模型发现框架。
提出的方法
- 该方法采用一种子采样策略,包含两个关键参数:子采样大小和子样本次数,以提升贝叶斯学习的准确性。
- 子采样大小通过权衡方差与偏差进行调节——准确度随大小增加而先提升,但随后因过拟合而下降。
- 增加子样本次数可降低后验估计的方差,从而实现一致的准确度提升。
- 该算法以阈值稀疏贝叶斯回归(TSBR)为基础,通过迭代子采样增强,以稳定系数估计。
- 在每次贝叶斯更新前,对训练数据应用子采样,降低对异常值和噪声的敏感性。
- 通过系统分析子采样大小与子样本次数之间的权衡关系,对方法进行调优以实现最优性能。
实验结果
研究问题
- RQ1子采样在高斯噪声环境下如何提升稀疏贝叶斯回归在发现微分方程时的鲁棒性?
- RQ2在最大化发现准确度的前提下,子采样大小与子样本次数之间最优权衡为何?
- RQ3SubTSBR能否有效处理含异常值的数据并仍能恢复正确的控制方程?
- RQ4该方法在发现具有随机初始和边界条件的模型时表现如何?
- RQ5SubTSBR能否可靠识别鱼群捕捞模型等系统中的分岔现象和非线性动力学?
主要发现
- 在从噪声数据中识别微分方程方面,SubTSBR的准确度显著高于标准TSBR,尤其在高噪声水平下表现更优。
- 增加子样本次数可一致提升准确度,表明贝叶斯估计过程中的方差降低。
- 存在最优子采样大小——准确度随大小增加而提升至某一点后开始下降,原因在于过拟合。
- 即使在显著噪声干扰下,该方法仍能成功恢复捕食者-猎物模型的正确控制方程。
- 在存在异常值的情况下,SubTSBR仍能准确发现浅水方程,展现出优异的鲁棒性。
- 该方法在具有随机初始和边界条件的系统中实现了可靠的模型发现,并成功捕捉了鱼群捕捞模型中的分岔行为。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。