Skip to main content
QUICK REVIEW

[論文レビュー] Boosting Distributional Copula Regression

Nicolai Hans, Nadja Klein|arXiv (Cornell University)|Feb 25, 2022
Statistical Methods and Inference被引用数 1
ひとこと要約

本稿では、構造的加法的予測子を介して周辺分布とコプア依存構造を推定することにより、多次元のアウトカムを柔軟かつ高次元にモデリングできる、分布型コプア回帰のモデルベースブースティングフレームワークを提案する。この手法は、内生的変数選択、縮小、および早期停止を統合しており、シミュレーション研究および胎児超音波データからの新生児体重・身長予測という実世界の応用において優れた性能を示している。

ABSTRACT

Capturing complex dependence structures between outcome variables (e.g., study endpoints) is of high relevance in contemporary biomedical data problems and medical research. Distributional copula regression provides a flexible tool to model the joint distribution of multiple outcome variables by disentangling the marginal response distributions and their dependence structure. In a regression setup each parameter of the copula model, i.e. the marginal distribution parameters and the copula dependence parameters, can be related to covariates via structured additive predictors. We propose a framework to fit distributional copula regression models via a model-based boosting algorithm. Model-based boosting is a modern estimation technique that incorporates useful features like an intrinsic variable selection mechanism, parameter shrinkage and the capability to fit regression models in high dimensional data setting, i.e. situations with more covariates than observations. Thus, model-based boosting does not only complement existing Bayesian and maximum-likelihood based estimation frameworks for this model class but rather enables unique intrinsic mechanisms that can be helpful in many applied problems. The performance of our boosting algorithm in the context of copula regression models with continuous margins is evaluated in simulation studies that cover low- and high-dimensional data settings and situations with and without dependence between the responses. Moreover, distributional copula boosting is used to jointly analyze and predict the length and the weight of newborns conditional on sonographic measurements of the fetus before delivery together with other clinical variables.

研究の動機と目的

  • 反応変数に複雑な依存構造を示す場合に特に、生物医学研究における多次元アウトカムの柔軟で高次元のモデリングのニーズに対処すること。
  • 従来のベイズ的および最尤推定法の制限を超えるために、内蔵された変数選択および縮小を有するブースティングベースの推定フレームワークを導入すること。
  • 構造的加法的予測子を用いて、周辺分布のパラメータとコプア依存パラメータを同時に、共変数の柔軟な関数として推定すること。
  • 周辺分布および依存構造の両方に、複雑で非線形的かつ非パラメトリックな効果を可能にし、モデルの解釈可能性と予測精度を向上させること。
  • 低次元および高次元の設定、特に胎児成長予測の臨床的実データを含む、実世界の応用において、本手法の頑健性と実用的有用性を示すこと。

提案手法

  • すべてのパラメータ(周辺分布およびコプア依存パラメータ)が構造的加法的予測子を介して共変数にリンクされる、分布型コプア回帰モデルのモデルベースブースティングを採用する。
  • 成分別ブースティングと罰則付き尤度推定を用い、予測性の高い共変数の選択と、不適切または弱い効果の縮小により、反復的にモデルの適合を改善する。
  • 特に p > n の高次元設定においても、過剰適合を防ぎ、頑健な変数選択を実現するため、安定性選択を用いた早期停止を組み込む。
  • 各パラメータの損失関数を最適化するために、成分別勾配ブースティングを適用し、スプラインに基づくスムーズ項を通じて柔軟な非線形効果を可能にする。
  • ガウス、クラッティン、ギュムベルなどのコプア族を組み込み、尾部依存を含むさまざまな依存構造をモデル化しつつ、周辺モデリングの柔軟性を維持する。
  • 尤度に基づく損失関数と繰り返し重み付けを用い、一元的なフレームワーク内で周辺パラメータと依存パラメータの両方の一貫性ある推定を保証する。

実験結果

リサーチクエスチョン

  • RQ1高次元設定において、柔軟で構造的加法的予測子を有するモデルベースブースティングが、分布型コプア回帰モデルを効果的に推定できるか。
  • RQ2ブースティングフレームワークは、周辺分布および依存パラメータにおける関連する共変数の同定および非線形効果の推定において、どの程度の性能を示すか。
  • RQ3情報のないまたはノイズの多い共変数が存在する状況でも、本手法はどの程度の低誤発見率と高い推定精度を維持できるか。
  • RQ4変数選択、縮小、および予測性能の観点から、従来のベイズ的および尤度ベースの手法と比較して、本手法はどのように差をつけるか。
  • RQ5本フレームワークは、実世界の医療分野のデータ(例:胎児体重と身長の共同予測)において、複雑で非線形の依存関係を効果的にモデル化できるか。

主な発見

  • ブースティングフレームワークは、低次元および高次元のシミュレーション設定において、周辺分布パラメータとコプア依存パラメータの両方を高い正確性で推定できた。
  • 低次元設定では、真の効果のほぼ完全な回復が達成され、情報のある共変数の中央値バイアスが0.05未満に抑えられ、非情報的共変数の誤検出は最小限に抑えられた。
  • 高次元設定(p = 100)では、情報のある共変数の95%を正しく同定する優れた変数選択性能を維持し、誤発見率を10%未満に制御した。
  • 早期停止と安定性選択の適用により、特に高次元状況において過剰適合が顕著に低減され、100回のシミュレーション実行において安定した収束が観察された。
  • コプア族の誤指定に対しても本手法は頑健であり、真の依存構造が完全に把握されていなくても、性能の低下が最小限に抑えられた。
  • 実世界の応用において、本モデルは超音波的および臨床的共変数を用いて、新生児体重と身長の同時分布を効果的に予測し、胎児測定値が成長結果に与える非線形効果を明らかにした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。