QUICK REVIEW

[論文レビュー] Robust data-driven discovery of governing physical laws using a new subsampling-based sparse Bayesian method to tackle four challenges (large noise, outliers, data integration, and extrapolation)

Sheng Zhang, Guang Lin|arXiv (Cornell University)|Jul 17, 2019

Model Reduction and Neural Networks被引用数 5

ひとこと要約

本稿では、高ノイズ、外れ値、データ統合、外挿の下で、支配的物理法則のデータ駆動型同定における頑健性を向上させる、サブサンプリングに基づくスパースベイズ回帰手法SubTSBRを提案する。サブサンプリングサイズとサブサンプル数の最適化により、SubTSBRは4つのベンチマーク物理モデルにおいて、ノイズや汚損データからの正確な微分方程式同定において、標準的なTSBRを上回る性能を発揮する。

ABSTRACT

Data-driven discovery of differential equations has been an emerging research topic. We propose a novel algorithm subsampling-based threshold sparse Bayesian regression (SubTSBR) to tackle high noise and outliers. The subsampling technique is used for improving the accuracy of the Bayesian learning algorithm. It has two parameters: subsampling size and the number of subsamples. When the subsampling size increases with fixed total sample size, the accuracy of our algorithm goes up and then down. When the number of subsamples increases, the accuracy of our algorithm keeps going up. We demonstrate how to use our algorithm step by step and compare our algorithm with threshold sparse Bayesian regression (TSBR) for the discovery of differential equations. We show that our algorithm produces better results. We also discuss the merits of discovering differential equations from data and demonstrate how to discover models with random initial and boundary condition as well as models with bifurcations. The numerical examples are: (1) predator-prey model with noise, (2) shallow water equations with outliers, (3) heat diffusion with random initial and boundary condition, and (4) fish-harvesting problem with bifurcations.

研究の動機と目的

高ノイズ、外れ値、データ統合、モデルの外挿といった課題に対処するため、データ駆動型物理法則の同定を改善すること。
不完全なデータから支配的微分方程式を同定する際のスパースベイズ回帰の精度と頑健性を向上させること。
ベイズ学習の安定性と収束性を向上させる、新たなサブサンプリングに基づくアプローチを開発すること。
初期・境界条件のばらつきや分岐を有する多様な物理系において、本手法の有効性を示すこと。
データの不完全性に強く、実世界の応用にスケーラブルなモデル同定の体系的フレームワークを提供すること。

提案手法

本手法は、サブサンプリングサイズとサブサンプル数の2つの主要パラメータを用いたサブサンプリング戦略を採用し、ベイズ学習の精度を向上させる。
サブサンプリングサイズを変化させることで、バイアスと分散のバランスを図る。サイズを大きくすると一時的に精度が向上するが、過学習により後に低下する。
サブサンプル数を増やすことで、事後分布推定の分散を低減し、一貫して精度が向上する。
アルゴリズムは、反復的サブサンプリングによって安定化された係数推定が得られるよう、ベースにしきい値スパースベイズ回帰（TSBR）を用いる。
各ベイズ更新の前に、訓練データに対してサブサンプリングを適用し、外れ値やノイズへの感受性を低減する。
最適な性能を得るための体系的なチューニングとして、サブサンプリングサイズとサブサンプル数のトレードオフを分析する。

実験結果

リサーチクエスチョン

RQ1サブサンプリングは、高ノイズ下でのスパースベイズ回帰による微分方程式同定の頑健性をどのように向上させるか？
RQ2同定精度を最大化するための、サブサンプリングサイズとサブサンプル数の最適なトレードオフは何か？
RQ3SubTSBRは外れ値を含むデータに対しても、正しい支配的微分方程式を回復できるか？
RQ4ランダムな初期条件および境界条件を有するモデルの同定において、本手法はどのように性能を発揮するか？
RQ5SubTSBRは、フィッシュ・ハーベスティングモデルのような系において、分岐や非線形ダイナミクスを信頼性高く同定できるか？

主な発見

ノイズレベルが高い状況において、SubTSBRは標準的なTSBRよりも高い精度を達成し、微分方程式の同定に優れる。
サブサンプル数を増やすことで、一貫して精度が向上し、ベイズ推定プロセスにおける分散低減が示された。
最適なサブサンプリングサイズが存在する。サイズを増やすことで一時的に精度が向上するが、過学習により後に低下する。
重大なノイズが存在する状況下でも、捕食者・被食者モデルにおいて正しく支配的微分方程式を回復できた。
外れ値が存在する中でも、浅い水の流れ方程式を正確に同定できたことから、本手法の頑健性が裏付けられた。
ランダムな初期・境界条件を有する系においても、信頼性のあるモデル同定が可能であり、フィッシュ・ハーベスティングモデルにおける分岐行動の捉えも成功した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。