[論文レビュー] Practical Deep Heteroskedastic Regression
要約:本論文は、保持データセット上で訓練されたポストホックの線形分散ヘッドを提案し、深いヘテロスケダスティック回帰の不確実性を較正するため intermediate latent representations を用いて、平均精度を維持しつつ競争的または優れた不確実性定量を達成する。QM9 および OMol25 データセットで実証。
Uncertainty quantification (UQ) in deep learning regression is of wide interest, as it supports critical applications including sequential decision making and risk-sensitive tasks. In heteroskedastic regression, where the uncertainty of the target depends on the input, a common approach is to train a neural network that parameterizes the mean and the variance of the predictive distribution. Still, training deep heteroskedastic regression models poses practical challenges in the trade-off between uncertainty quantification and mean prediction, such as optimization difficulties, representation collapse, and variance overfitting. In this work we identify previously undiscussed fallacies and propose a simple and efficient procedure that addresses these challenges jointly by post-hoc fitting a variance model across the intermediate layers of a pretrained network on a hold-out dataset. We demonstrate that our method achieves on-par or state-of-the-art uncertainty quantification on several molecular graph datasets, without compromising mean prediction accuracy and remaining cheap to use at prediction time.
研究の動機と目的
- 深層ヘテロスケダスティック回帰モデルの訓練における核となる課題を特定する。
- 現実的なポストホック分散ヘッドを保持データでフィットさせる。
- 中間潜在表現を用いて分散を予測し、アンサンブルを可能にする。
- 分子データセット上で平均予測品質を維持しつつ不確実性量化を改善することを示す。
提案手法
- 平均予測子を通常通り訓練し、そのパラメータを固定しておく。
- 中間潜在表現 zl を入力として受け取る線形分散ヘッドを接続する。
- 選択された潜在層の線形射影の和として σ^2ϕ(x*) を計算する: σ^2ϕ(x*) = sp Σl∈Lσ Wl^T zl(x*)。
- 平均の訓練とは分離して、保持データセット上でネガティブ対数尤度損失を用いて分散ヘッドをフィットさせる。
- 任意で、複数の潜在表現特異の推定器を平均化してガウス混合を形成する: p(y*|x*) = (1/|Lσ|) Σl∈Lσ N(y*|μθ(x*), σl(x*)^2)。
- 個別表現から学習した分散推定器をアンサンブルして較正と頑健性を向上させる。
実験結果
リサーチクエスチョン
- RQ1ポストホックで保持データを用いた較正済み分散ヘッドは、エンドツーエンドの平均-分散訓練と比較して競争力のあるまたは優れた不確実性推定を提供するか。
- RQ2中間潜在表現を使用することは、最終潜在表現のみを使用する場合より分散予測を改善するか。
- RQ3表現の選択とアンサンブルが較正指標や分子性質タスクにおける負の対数尤度にどう影響するか。
- RQ4大規模な事前訓練モデルとデータセットに対して手法は計算コストを増やさずスケール可能か。
主な発見
- ポストホック分散アンサンブルは、多くの場合エンドツーエンドの平均-分散モデルと同等またはそれを上回る NLL を達成しつつ平均 MAE パフォーマンスを維持する。
- 分散予測には初期の潜在表現を用いる方が後期のものより一般に効果的であり、表現を跨いだアンサンブルが最良の結果を生む。
- 保持データを用いた較正を活用し、予測時のオーバーヘッドが最小で追加のハイパーパラメータが不要である。
- QM9 から大規模な OMol25 のプリトレーニングモデルへと一般化し、ベースラインに対して負の対数尤度を大幅に改善し較正された不確実性推定を達成。
- ポストホックアンサンブルの較正曲線はオラクルの期待と一致し、アクティブラーニングやベイズ最適化における不確実性ランクの信頼性を示す。
- 分散予測子のアンサンブル(ガウス混合)は外れ値と小規模保持データセットに対する頑健性を提供するが、較正(ECE)とシャープネスの間でトレードオフが生じる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。