[論文レビュー] NGBoost: Natural Gradient Boosting for Probabilistic Prediction
NGBoostは確率回帰へ勾配ブースティングを拡張し、自然勾配を用いて複数の分布パラメータを同時にブーストすることで、校正された予測分布を提供し、柔軟なベース学習器と分布を実現する。
We present Natural Gradient Boosting (NGBoost), an algorithm for generic probabilistic prediction via gradient boosting. Typical regression models return a point estimate, conditional on covariates, but probabilistic regression models output a full probability distribution over the outcome space, conditional on the covariates. This allows for predictive uncertainty estimation -- crucial in applications like healthcare and weather forecasting. NGBoost generalizes gradient boosting to probabilistic regression by treating the parameters of the conditional distribution as targets for a multiparameter boosting algorithm. Furthermore, we show how the Natural Gradient is required to correct the training dynamics of our multiparameter boosting approach. NGBoost can be used with any base learner, any family of distributions with continuous parameters, and any scoring rule. NGBoost matches or exceeds the performance of existing methods for probabilistic prediction while offering additional benefits in flexibility, scalability, and usability. An open-source implementation is available at github.com/stanfordmlgroup/ngboost.
研究の動機と目的
- 医療や気象予測などの回帰タスクにおける確率的回帰と不確実性定量の必要性を動機づける。
- NGBoostを提案する。これはマルチパラメータブースティングと自然勾配を介して共分布パラメータを共分布covariatesの関数として学ぶモジュラーアルゴリズム。
- NGBoostは柔軟であることを示す(基盤学習器、分布、スコアリング規則)とスケーラブルであり、確率的予測の競争力を持つ。
- NGBoostを既存の確率回帰法と経験的に比較し、自然勾配とマルチパラメータブースティングの利点を ablations で示す。
提案手法
- P(y|x)を選択したパラメトリック分布P_thetaで表現し、thetaはxの関数として学習される。
- データセット全体のトレーニング目的として適切なスコアリング規則Sを使用する(例:対数尤度L、CRPS)。
- 自然勾配 tilde{∇}S を、通常勾配をファイシャー情報行列の逆行列で前乗算することにより計算する。
- 各ブースティング段階で、各パラメータの自然勾配を予測する基礎学習器を適合させ、その後、段階特有のスケーリングρ^(m)と共通学習率ηを用いた線探索に基づく更新を行う。
- M段階のブースティングを反復して theta = theta^(0) - η ∑_m ρ^(m) f^(m)(x) を得る。これにより、正規分布のμとlog σなど複数の分布パラメータを同時にモデリング可能。
- 自然勾配のパラメータ化不変性を示し、計算コスト(Nの直線スケール、パラメータ数pに対して線形; 勾配の逆行列は p^3 のコスト)と実用的なミニバッチ処理を論じる。
実験結果
リサーチクエスチョン
- RQ1NGBoostは共分布パラメータを covariates の関数として jointly modeling することで確率的予測を提供できるか?
- RQ2自然勾配はmultiparameter boostingにおける通常勾配や2次の勾配と比較して学習ダイナミクスと予測不確実性のキャリブレーションを改善するか?
- RQ3NGBoostは多様なデータセットと分布に対して最先端の確率回帰法と競争力があるか?
- RQ4アブレーション(マルチパラメータブースティング、自然勾配、等分散バラエーション)によって性能はどう変わるか?
主な発見
| データセット | N | NGBoost | MC dropout | Deep Ensembles | Concrete Dropout | Gaussian Process | GAMLSS | Distributional Forest |
|---|---|---|---|---|---|---|---|---|
| Boston | 506 | 2.43 ± 0.15 | 2.46 ± 0.25 | 2.41 ± 0.25 | 2.72 ± 0.01 | 2.37 ± 0.24 | 2.73 ± 0.56 | 2.67 ± 0.08 |
| Concrete | 1030 | 3.04 ± 0.17 | 3.04 ± 0.09 | 3.06 ± 0.18 | 3.51 ± 0.00 | 3.03 ± 0.11 | 3.24 ± 0.08 | 3.38 ± 0.05 |
| Energy | 768 | 0.60 ± 0.45 | 1.99 ± 0.09 | 1.38 ± 0.22 | 2.30 ± 0.00 | 0.66 ± 0.17 | 1.24 ± 0.86 | 1.53 ± 0.14 |
| Kin8nm | 8192 | -0.49 ± 0.02 | -0.95 ± 0.03 | -1.20 ± 0.02 | -0.65 ± 0.00 | -1.11 ± 0.03 | -0.26 ± 0.02 | -0.40 ± 0.01 |
| Naval | 11934 | -5.34 ± 0.04 | -3.80 ± 0.05 | -5.63 ± 0.05 | -5.87 ± 0.05 | -4.98 ± 0.02 | -5.56 ± 0.07 | -4.84 ± 0.01 |
| Power | 9568 | 2.79 ± 0.11 | 2.80 ± 0.05 | 2.79 ± 0.04 | 2.75 ± 0.01 | 2.81 ± 0.05 | 2.86 ± 0.04 | 2.68 ± 0.05 |
| Protein | 45730 | 2.81 ± 0.03 | 2.89 ± 0.01 | 2.83 ± 0.02 | 2.81 ± 0.00 | 2.89 ± 0.02 | 3.00 ± 0.01 | 2.59 ± 0.04 |
| Wine | 1588 | 0.91 ± 0.06 | 0.93 ± 0.06 | 0.94 ± 0.12 | 1.70 ± 0.00 | 0.95 ± 0.06 | 0.97 ± 0.09 | 1.05 ± 0.15 |
| Yacht | 308 | 0.20 ± 0.26 | 1.55 ± 0.12 | 1.18 ± 0.21 | 1.75 ± 0.00 | 0.10 ± 0.26 | 0.80 ± 0.56 | 2.94 ± 0.09 |
| Year MSD | 515345 | 3.43 ± NA | 3.59 ± NA | 3.35 ± NA | NA ± NA | NA ± NA | NA ± NA | NA ± NA |
- NGBoostはUCI回帰データセットでMC dropout、Deep Ensembles、Concrete Dropout、Gaussian Processes、GAMLSS、Distributional Forestsと比較して競争力のNLLを提供。
- アブレーションにより、マルチパラメータブースティングと自然勾配の両方を用いると最良のNLLを得られ、これらの要素のいずれか一方のみの設定を上回る。
- NGBoostは確率予測でNLLを最適化しているにもかかわらず、点推定にはRMSEも競争力を示す。
- 自然勾配ベースの学習は例やパラメータ全体にわたる更新をよりバランス良く行い、通常の勾配で見られる過学習・未学習を回避する。
- 分布パラメータ数とデータセット規模の増加にも標準ブースティングと同様にスケールし、追加コストは控えめ。
- NGBoostは引き続き柔軟で、さまざまな基礎学習器、分布、スコアリング規則を許容し、実用性とスケーラビリティを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。