Skip to main content
QUICK REVIEW

[論文レビュー] SymbolicGPT: A Generative Transformer Model for Symbolic Regression

Mojtaba Valipour, Bowen You|arXiv (Cornell University)|Jun 27, 2021
Evolutionary Algorithms and Applications参考文献 20被引用数 37
ひとこと要約

SymbolicGPT は、symbolic regression を言語生成タスクとして扱い、点群の順序不変な T-net 埋め込みと GPT ベースのスケルトン生成器を用いてシンボリック表現を生成し、定数は事後最適化で埋める。

ABSTRACT

Symbolic regression is the task of identifying a mathematical expression that best fits a provided dataset of input and output values. Due to the richness of the space of mathematical expressions, symbolic regression is generally a challenging problem. While conventional approaches based on genetic evolution algorithms have been used for decades, deep learning-based methods are relatively new and an active research area. In this work, we present SymbolicGPT, a novel transformer-based language model for symbolic regression. This model exploits the advantages of probabilistic language models like GPT, including strength in performance and flexibility. Through comprehensive experiments, we show that our model performs strongly compared to competing models with respect to the accuracy, running time, and data efficiency.

研究の動機と目的

  • スケーラビリティと速度を向上させるため、シンボリック回帰を言語モデリング問題として動機づける。
  • 可変サイズ・多変数入力を扱うための順序不変データ埋め込みを開発する。
  • データセットを記述するシンボリック方程式スケルトンを生成するGPTベースのモデルを訓練する。
  • 効率性を改善するために定数の最適化をスケルトン生成から分離する。
  • 従来のシンボリック回帰手法と比較したデータ効率と推論速度の向上を示す。

提案手法

  • 制御された深さと定数を用いたパースツリー・テンプレートから、大規模で多様な訓練方程式を生成する。
  • グローバル最大プーリング を備えた T-net を用いて、入力データセットの順序不変埋め込みを生成する。
  • データセット埋め込みと初期トークン列からスケルトン方程式を生成するためにGPT言語モデルを使用する。
  • スケルトン生成中に定数をマスクし、定数は事後処理の最適化ステップ(BFGS)に遅らせる。
  • スケルトンを飾る定数を学習し、最終的なシンボリック表現を得る。
  • 正規化平均二乗誤差を用いて予測と真の出力を比較して評価する。

実験結果

リサーチクエスチョン

  • RQ1順序不変のデータセット埋め込みを用いて、シンボリック回帰を言語モデリングタスクとして効果的に位置づけることができるか?
  • RQ2オフライン訓練と組み合わせたGPTベースのスケルトン生成器は、異なる入力次元にわたって、より速く、より正確なシンボリック表現を生み出すか?
  • RQ3精度と速度の観点で、SymbolicGPT は従来手法(GP、GP Max、DSR、MLP)と比較してどう評価されるか?
  • RQ4異なる入力変数数に対して回帰を行う一度訓練済みモデルのデータ効率とスケーラビリティはどの程度か?
  • RQ5スケルトンから正確な最終表現を生み出す事後定数最適化の有効性はどの程度か?

主な発見

実験GPGP MaxDSRSymbolicGPT
General48.0 \pm 26.784.8 \pm 25.878.8 \pm 42.85.0 \pm 12.0
One variable44.6 \pm 33.082.1 \pm 32.115.1 \pm 2.11.1 \pm 0.9
Two variables47.3 \pm 29.4100.8 \pm 31.976.7 \pm 39.83.5 \pm 9.0
Three variables60.0 \pm 32.9109.5 \pm 32.473.3 \pm 56.410.3 \pm 26.2
  • SymbolicGPT は実験において GP、GP Max、DSR、MLP よりもテストケース全体で高い精度を達成する。
  • SymbolicGPT は大幅なスピードアップを提供し、競合手法よりも多くの場合、シンボリック回帰のインスタンス解決において桁違いに速い。
  • SymbolicGPT は入力変数の数が増加しても高い性能を維持し、1変数から5変数までの頑健性を示す。
  • データポイントが増えるとモデルの性能は向上するが、与えられたデータセットサイズに対して他より一貫して誤差が少ない。
  • 一度のオフライン学習により、新しい各回帰インスタンスの推論を迅速に行える。
  • 定数は事後に効果的に最適化され、スケルトン生成は方程式の構造的形を扱う。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。