[論文レビュー] Symbolic regression outperforms other models for small data sets
本研究は、観測値250の小規模な訓練データセットにおいて、QLatticeを用いたシンボリック回帰が線形モデル・決定木・ランダムフォレスト・勾配ブースティングよりもサンプル外データへの一般化性能が高く、240件中132件で他を上回ることを示す。解釈性も維持される。
Machine learning is often applied in health science to obtain predictions and new understandings of complex phenomena and relationships, but an availability of sufficient data for model training is a widespread problem. Traditional machine learning techniques, such as random forests and gradient boosting, tend to overfit when working with data sets of only a few hundred observations. This study demonstrates that for small training sets of 250 observations, symbolic regression generalises better to out-of-sample data than traditional machine learning frameworks, as measured by the coefficient of determination R2 on the validation set. In 132 out of 240 cases, symbolic regression achieves a higher R2 than any of the other models on the out-of-sample data. Furthermore, symbolic regression also preserves the interpretability of linear models and decision trees, an added benefit to its superior generalisation. The second best algorithm was found to be a random forest, which performs best in 37 of the 240 cases. When restricting the comparison to interpretable models, symbolic regression performs best in 184 out of 240 cases.
研究の動機と目的
- 医療科学における小規模データセットでのモデリングの難しさを動機づける。
- 小規模な訓練データに対するシンボリック回帰と従来モデルの一般化性能を評価する。
- シンボリック回帰と他の手法との解釈性のトレードオフを評価する。
提案手法
- 48のPMLB回帰データセットに対して、250サンプルの訓練とサンプル外評価を用いて、QL latticeシンボリック回帰を線形回帰、決定木、ランダムフォレスト、勾配ブースティングと比較する。
- サンプル外検証セットでのR^2を主要な一般化指標として用いる。
- データセットごとに5つの異なる250観測の訓練セットをサンプリングし、データ分割間の頑健性を評価する。
- Table 1に示す典型的なハイパーパラメータでモデルを設定し、QLatticeの2つの基準(AIC, BIC)とmax_edges制約を含める。
- 240のモデル-データセットランにおける1位数と加重スコアを報告する。
実験結果
リサーチクエスチョン
- RQ1訓練データが乏しい場合、シンボリック回帰は従来のモデルより外部データへの一般化性能が高いか?
- RQ2小規模データ領域でのシンボリック回帰の解釈性は、線形モデルや決定木とどのように比較されるか?
主な発見
| モデル | 第1位数 | 加重スコア | ベスト時の第1位数 | ベスト時の加重スコア |
|---|---|---|---|---|
| QLattice(criterion="bic", max_edges=11) | 77 | 644 | 132 | 1033 |
| QLattice(criterion="aic", max_edges=11) | 65 | 608 | ||
| Lasso(alpha=0.1, max_iter=100000) | 18 | 404 | 32 | 511 |
| GradientBoostingRegressor(n_estimators=400) | 12 | 375 | 36 | 821 |
| RandomForestRegressor(n_estimators=400) | 10 | 268 | 37 | 787 |
| LinearRegression() | 9 | 170 | ||
| GradientBoostingRegressor(n_estimators=50) | 8 | 166 | ||
| GradientBoostingRegressor(n_estimators=200) | 7 | 160 | ||
| GradientBoostingRegressor(n_estimators=100) | 7 | 158 | ||
| Lasso(alpha=0.01, max_iter=100000) | 7 | 133 | ||
| RandomForestRegressor(n_estimators=50) | 5 | 128 | ||
| RandomForestRegressor() | 5 | 124 | ||
| RandomForestRegressor(n_estimators=200) | 4 | 124 | ||
| DecisionTreeRegressor(max_depth=2) | 3 | 88 | 3 | 448 |
| Lasso(alpha=0.05, max_iter=100000) | 2 | 25 | ||
| DecisionTreeRegressor(max_depth=1) | 1 | 20 | ||
| DecisionTreeRegressor(max_depth=6) | 0 | 4 | ||
| DecisionTreeRegressor(max_depth=4) | 0 | 1 |
- ベスト構成比較の下で、シンボリック回帰(QLattice)は240件中132件で他のすべてのモデルを上回った。
- 全240件で、BICソーティングを用いたQLatticeが最高の平均性能を達成(First places: 77; Weighted score: 644; Best-first: 132; Best-weighted: 1033)。
- 技術間の5つのベスト構成に制限した場合、QLattice(BIC)は132の1位と最高の加重スコア(1033)で先行した。
- 2番目に良かったのは勾配ブースティングとランダムフォレストだが、サンプル外一般化ではシンボリック回帰に及ばなかった。
- 解釈可能なモデルの中で、シンボリック回帰は240件中184件で最良(ラッソ49、単純決定木7に対して)。
- これらの小規模データセットでは、決定木のような単純なモデルはアンサンブルより一般化性能が高い傾向があり、シンボリック回帰は学習と一般化のバランスを取る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。