Skip to main content
QUICK REVIEW

[論文レビュー] Gaussian Processes for Survival Analysis

Tamara Fernández, Nicolás Rivera|arXiv (Cornell University)|Nov 2, 2016
Statistical Methods and Inference参考文献 10被引用数 33
ひとこと要約

本論文は、パラメトリックなベースラインハザードとノンパラメトリックなガウス過程を組み合わせることで、柔軟にハザード関数をモデル化しつつ、共変数を組み込み、左打ち切り、右打ち切り、区間打ち切りを処理できる、半パラメトリックなベイジアン生存モデルを提案する。この手法は強度をモデル化するためのガウスプロセスを用い、スケーラブルな推論のためのMCMCとランダムフーリエ特徴量を併用しており、合成データおよび実世界のデータにおいて、コックス比例ハザードモデル、ANOVA-DDP、ランダム生存フォレストを上回る性能を示した。

ABSTRACT

We introduce a semi-parametric Bayesian model for survival analysis. The model is centred on a parametric baseline hazard, and uses a Gaussian process to model variations away from it nonparametrically, as well as dependence on covariates. As opposed to many other methods in survival analysis, our framework does not impose unnecessary constraints in the hazard rate or in the survival function. Furthermore, our model handles left, right and interval censoring mechanisms common in survival analysis. We propose a MCMC algorithm to perform inference and an approximation scheme based on random Fourier features to make computations faster. We report experimental results on synthetic and real data, showing that our model performs better than competing models such as Cox proportional hazards, ANOVA-DDP and random survival forests.

研究の動機と目的

  • コックス比例ハザードモデルのような強いパラメトリック仮定(例:比例ハザード)を避ける、柔軟で解釈可能なベイジアン生存モデルの開発。
  • パラメトリックなベースラインハザードを用いて専門家知識を組み込みつつ、ガウス過程によるノンパラメトリックな柔軟性を確保する。
  • 生存データに一般的に見られる左打ち切り、右打ち切り、区間打ち切りのさまざまな打ち切り機構を処理する。
  • ランダムフーリエ特徴量を用いて大規模データセットに対するスケーラブルな推論を可能にする。
  • 予測性能において、コックス比例ハザードモデル、ANOVA-DDP、ランダム生存フォレストといった既存モデルを上回ること。

提案手法

  • ハザード関数は、パラメトリックなベースラインハザードと、ガウス過程から導出された非負の関数の積としてモデル化される。
  • ポアソン過程の強度が生存時間のシミュレーションに用いられ、その強度はガウス過程によって制御され、ガウス・コックス過程を形成する。
  • ガウス過程パスの有限次元近似に基づく修正されたMCMCアルゴリズムを用いて正確な推論が行われる。
  • 計算を高速化し、より大きなデータセットへのスケーリングを可能にするために、ランダムフーリエ特徴量の近似が導入される。
  • ノンパラメトリック成分を通じて共変数依存のハザードモデリングが可能となり、入力特徴量への柔軟な依存関係を実現する。
  • 全尤度フレームワーク内での打ち切り観測の尤度モデル化により、すべてのタイプの打ち切りを処理できる。

実験結果

リサーチクエスチョン

  • RQ1半パラメトリックなベイジアンモデルは、パラメトリックなベースラインハザードの解釈可能性と、ノンパラメトリックなガウス過程の柔軟性を生存分析において統合できるか?
  • RQ2ガウス過程を用いてハザード関数をモデル化する方法は、非負性を保証するとともに、効率的な推論を可能にするか?
  • RQ3提案されたモデルは、コックス比例ハザードモデルやランダム生存フォレストと比較して、コンcordance指数および生存曲線推定において優れた性能を示せるか?
  • RQ4精度と解釈可能性を維持しつつ、大規模データセットへのスケーリングはどのように実現できるか?
  • RQ5本モデルは、実世界の生存データに見られる複雑な非比例ハザード構造にどの程度適応できるか?

主な発見

  • Veteran肺がんデータセットにおいて、提案モデルはコックス比例ハザードモデル、ANOVA-DDP、ランダム生存フォレストよりも高いコンコードランス指数(C-index)を達成した。
  • Veteranデータセットにおいて、本モデルは高スコアの Karnofsky 努力評価(例:90)における治療効果の有意義な差を検出できたが、他のモデルはこれを捉えられなかった。
  • コックス比例ハザードモデルやランダム生存フォレストが示す急勾配で現実的でない曲線とは対照的に、本モデルはより滑らかで視覚的に整合性のある生存曲線を示した。
  • ANOVA-DDPは、低スコアの努力度において生存関数を過大評価しており、モデルの誤指定の兆候であると判明した。
  • ランダムフーリエ特徴量の近似により、大規模データセットでも効率的な推論が可能となったが、高次元の共変数相互作用にはスケーラビリティの限界が残っている。
  • 生存関数の推定において本モデルは頑健であったが、特に t=0 付近の初期時刻の推定において若干の感度を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。