QUICK REVIEW

[論文レビュー] AI Feynman 2.0: Pareto-optimal symbolic regression exploiting graph modularity

Silviu‐Marian Udrescu, Andrew Y. Y. Tan|arXiv (Cornell University)|Jun 18, 2020

Model Reduction and Neural Networks参考文献 36被引用数 85

ひとこと要約

グラフのモジュラー性を活用してパレート最適な式を見つける改良された記号的回帰法で、勾配ベースの対称性検出、パレートフロンティアの剪定、仮説検定、およびサンプルからの分布を扱う正規化フローを用います。

ABSTRACT

We present an improved method for symbolic regression that seeks to fit data to formulas that are Pareto-optimal, in the sense of having the best accuracy for a given complexity. It improves on the previous state-of-the-art by typically being orders of magnitude more robust toward noise and bad data, and also by discovering many formulas that stumped previous methods. We develop a method for discovering generalized symmetries (arbitrary modularity in the computational graph of a formula) from gradient properties of a neural network fit. We use normalizing flows to generalize our symbolic regression method to probability distributions from which we only have samples, and employ statistical hypothesis testing to accelerate robust brute-force search.

研究の動機と目的

科学データのための自動化され解釈可能な記号的回帰の開発を促す。
ノイズや外れ値に対して頑健さを向上させるモジュラリティ対応の分割統治回帰フレームワークを説明する。
モデルの単純さと精度をバランスさせるパレートフロンティア基準を導入する。
正規化フローを用いてサンプルから分布を学習するように記号的回帰を拡張する。

提案手法

ニューラルネットの勾配から推定される計算グラフにおけるモジュラリティを用いて、謎の関数を再帰的に分解する。
記述長に基づくパレートフロンティア基準を採用して、単純さと精度によって候補を剪定する（MEDLベースの損失）。
固定閾値の代わりに統計的仮説検定を用いて、非フロンティア候補を頑健に棄却する。
サンプルから分布を適合させるために正規化フローを用い、確率密度の回帰を可能にする。
未知の関数を近似するために全結合ニューラルネットワークを訓練し、勾配ベースの検定（組成性、一般化対称性、一般化可加性）でモジュラリティを検証する。
貪欲でスケーラブルな探索を実装し、各マージ後にパレート支配モデルを剪定し、パラメータのスナップと勾配ベースの洗練を適用する。

実験結果

リサーチクエスチョン

RQ1勾配ベースの解析は、ターゲット関数の計算グラフにおけるモジュラ構造を明らかにできるか？
RQ2情報理論的な目的関数を備えたパレート最適解は、記号回帰におけるノイズや外れ値への頑健性を向上させるか？
RQ3正規化フローは、サンプルから確率分布を学習するように記号回帰を拡張できるか？
RQ4入力次元とターゲット式の複雑さが増すと、手法はどうスケールするか？
RQ5物理学にヒントを得た方程式に対するモジュラリティベースの記号回帰の成功と失敗のモードは何か？

主な発見

本手法は、標準偏差10^(-1)のガウスノイズ（r = -1）を用いた100個のベースライン問題のうち73個を解くことで、頑健な記号回帰を達成する。
先行研究では解けなかった追加の謎を解き、Schmidt & Lipson (2009) が取り組んだ17問題すべてと追加ケースを、最大2時間の実行時間内に解く。
新しいテスト方程式で、さまざまなグラフモジュラリティ（T, S, P, G, M, C, A）に対して、正しい形とパラメータを発見し、しばしば基礎となる対称性と一致する。
正規化フローを用いてサンプルから確率分布を推定でき、表5に挙げられた分布の80%を、10^2～10^5サンプルで解く。
MEDLベースの損失とパレートフロンティア剪定に依拠することで頑健性が向上し、先行法と比較して外れ値やノイズへの感受性を低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。