[논문 리뷰] Incorporating data drift to perform survival analysis on credit risk
논문은 데이터 드리 drift 하에서 모기지 부도 예측을 견고하게 하기 위해, 랜드마크 인코딩과 등온 보정으로 드리프트를 보정하는 균형 기반의 종단 표지자와 이산 시간 위험도를 결합한 랜드마크 기반 동적 결합 모델(LMISO)을 제안한다.
Survival analysis has become a standard approach for modelling time to default by time-varying covariates in credit risk. Unlike most existing methods that implicitly assume a stationary data-generating process, in practise, mortgage portfolios are exposed to various forms of data drift caused by changing borrower behaviour, macroeconomic conditions, policy regimes and so on. This study investigates the impact of data drift on survival-based credit risk models and proposes a dynamic joint modelling framework to improve robustness under non-stationary environments. The proposed model integrates a longitudinal behavioural marker derived from balance dynamics with a discrete-time hazard formulation, combined with landmark one-hot encoding and isotonic calibration. Three types of data drift (sudden, incremental and recurring) are simulated and analysed on mortgage loan datasets from Freddie Mac. Experiments and corresponding evidence show that the proposed landmark-based joint model consistently outperforms classical survival models, tree-based drift-adaptive learners and gradient boosting methods in terms of discrimination and calibration across all drift scenarios, which confirms the superiority of our model design.
연구 동기 및 목표
- 비정상적이고 드리프트에 취약한 환경에서 신용 위험에 대한 생존 분석을 제시한다.
- 종단적 상환 행동을 연체까지의 시간(time-to-default)과 연결하는 동적 결합 모형 프레임워크를 개발한다.
- 시계열 드리프트를 다루기 위해 랜드마킹, 랜드마크 특이 베이스라인, 그리고 등온 보정을 도입한다.
- Freddie Mac 모기지 데이터를 사용하여 급격한, 점진적, 재발하는 데이터 드리프트에 대한 강건성을 평가한다.
제안 방법
- 실제 상환액과 예정 상환액을 비교하여 BD_pct(t)를 도출하는 균형 기반의 종단 표지자를 도입한다.
- 개별 대출별 선형 궤적 mi(t)=b0i + b1i t/Ni 를 적합시켜 종단적 행동을 요약하고 가벼운 리지 정규화된 OLS 추정기로 추정한다.
- 고정된 랜드마크 시점 L에서 수평선 H를 갖는 일련의 예측 작업의 시퀀스를 만든다.
- X(L), mi(L), 그리고 랜드마크 지시자 ZL를 구성요소로 하는 로지스틱 회귀를 통해 이산적 시간 기본 확률 hL를 모델링한다.
- 원시 확률 pcal를 보정하기 위해 등온 회귀를 적용하되 드리프트 하에서 순위를 보존하고 보정성을 향상시킨다.
실험 결과
연구 질문
- RQ1데이터 드리프트(급격한, 점진적, 재발하는)가 생존 기반 신용 위험 모델에 어떤 영향을 미치는가?
- RQ2종단적 상환 행동을 포함하는 랜드마크 기반 결합 프레임워크가 드리프트 하에서 판별력과 캘리브레이션을 향상시킬 수 있는가?
- RQ3랜드마크 특이 조정(LM)과 등온 보정(ISO)이 채무 불이행 확률의 드리프트로 인한 보정 오류를 완화하는가?
- RQ4제안된 LMISO 접근법이 표준 생존 모델 및 드리프트 적응 모델과 비교했을 때 다양한 드리프트 시나리오에서 강건한가?
주요 결과
| 모델 | AUC | Brier | F1 |
|---|---|---|---|
| M1-LMISO | 0.812 (0.004) | 0.102 (0.002) | 0.924 (0.001) |
| Cox | 0.571 (0.004) | 0.372 (0.003) | 0.346 (0.003) |
| XGBoost | 0.794 (0.005) | 0.126 (0.003) | 0.890 (0.003) |
| HAT | 0.622 (0.041) | 0.135 (0.004) | 0.921 (0.002) |
| ARF | 0.533 (0.006) | 0.140 (0.003) | 0.921 (0.002) |
- LMISO는 드리프트 시나리오 전반에서 일관되게 최상의 판별력, 보정 및 F1을 달성한다.
- 급격한 드리프트 하에서, M1-LMISO는 AUC 0.812, Brier 0.102, F1 0.924를 달성하며 Cox, XGBoost, HAT 및 ARF를 능가한다.
- 점진적 드리프트 하에서, M1-LMISO는 AUC 0.836, Brier 0.131, F1 0.876를 달성하고 벤치마크를 능가한다.
- 재발하는 드리프트 하에서, M1-LMISO는 AUC 0.696, Brier 0.115, F1 0.923를 달성하고 벤치마크를 능가한다.
- Cox 모델은 드리프트 규범 전반에서 성능이 저하되며, 드리프트 하에서 비례위험 모형의 한계를 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.