[論文レビュー] Incorporating data drift to perform survival analysis on credit risk
論文は、ランドマークベースの動的結合モデル(LMISO)を提案し、バランスベースの縦断マーカーと離散時間ハザードを組み合わせ、ランドマークエンコードと等尺カルibrationでドリフトを調整し、データドリフト下での住宅ローンデフォルトを頑健に予測する。
Survival analysis has become a standard approach for modelling time to default by time-varying covariates in credit risk. Unlike most existing methods that implicitly assume a stationary data-generating process, in practise, mortgage portfolios are exposed to various forms of data drift caused by changing borrower behaviour, macroeconomic conditions, policy regimes and so on. This study investigates the impact of data drift on survival-based credit risk models and proposes a dynamic joint modelling framework to improve robustness under non-stationary environments. The proposed model integrates a longitudinal behavioural marker derived from balance dynamics with a discrete-time hazard formulation, combined with landmark one-hot encoding and isotonic calibration. Three types of data drift (sudden, incremental and recurring) are simulated and analysed on mortgage loan datasets from Freddie Mac. Experiments and corresponding evidence show that the proposed landmark-based joint model consistently outperforms classical survival models, tree-based drift-adaptive learners and gradient boosting methods in terms of discrimination and calibration across all drift scenarios, which confirms the superiority of our model design.
研究の動機と目的
- 非定常でドリフトが生じやすい環境下での信用リスクに対する生存分析の動機づけ。
- 長期的な返済行動を時点-デフォルトへ結ぶ動的結合モデリングフレームワークの構築。
- ランドマーク化、ランドマーク特異ベースライン、および等尺キャリブレーションを組み込み、時系列ドリフトを扱う。
- Freddie Mac のモーゲージデータを用いて、急激・段階的・再発的データドリフトに対する頑健性を評価。
提案手法
- 実測返済と予定返済を比較して BD_pct(t) を導出するバランスベースの縦断マーカーを導入。
- 軽いリッジ正規化OLS推定量で縦断行動を要約する per-loan 線形軌道 mi(t)=b0i + b1i t/Ni を適合。
- ランドマークを用いて、固定ランドマーク時点 L でホライゾン H の一連の予測タスクを作成。
- 離散時間デフォルト確率 hL を、要素 X(L)、mi(L)、ランドマーク指標 ZL を用いたロジスティック回帰でモデル化。
- 等尺回帰を適用して生デ確率 pcal をキャリブレーションし、ランキングを維持しつつドリフト下でのキャリブレーションを改善。
実験結果
リサーチクエスチョン
- RQ1データドリフト(急激・段階的・再発)的が生存ベースの信用リスクモデルに与える影響は?
- RQ2長期的返済行動を組み込んだランドマークベースの結合フレームワークは、ドリフト下で識別力とキャリブレーションを改善できるか?
- RQ3ランドマーク特異の調整(LM)と等尺キャリブレーション(ISO)は、デフォルト確率のドリフト誘発の誤校正を緩和するか?
- RQ4提案手法 LMISO は、標準的な生存モデルやドリフト適応モデルと比べて、さまざまなドリフトシナリオで頑健か?
主な発見
| Model | AUC | Brier | F1 |
|---|---|---|---|
| M1-LMISO | 0.812 (0.004) | 0.102 (0.002) | 0.924 (0.001) |
| Cox | 0.571 (0.004) | 0.372 (0.003) | 0.346 (0.003) |
| XGBoost | 0.794 (0.005) | 0.126 (0.003) | 0.890 (0.003) |
| HAT | 0.622 (0.041) | 0.135 (0.004) | 0.921 (0.002) |
| ARF | 0.533 (0.006) | 0.140 (0.003) | 0.921 (0.002) |
- LMISO は、ドリフトシナリオ全体で一貫して最高の識別力・キャリブレーション・F1を達成。
- 急激なドリフト下で、M1-LMISO は AUC 0.812、Brier 0.102、F1 0.924 を達成し、Cox・XGBoost・HAT・ARF を上回る。
- 段階的ドリフト下で、M1-LMISO は AUC 0.836、Brier 0.131、F1 0.876 を達成し、ベンチマークを上回る。
- 再発的ドリフト下で、M1-LMISO は AUC 0.696、Brier 0.115、F1 0.923 を達成し、ベンチマークを上回る。
- Cox モデルはドリフト領域全体でパフォーマンスが低く、ドリフト下での比例ハザードの限界を浮き彫りにしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。