[논문 리뷰] Time-to-Event Prediction with Neural Networks and Cox Regression
이 논문은 신경망으로 Cox 비례 위험 모델을 확장하여 시간-사건 예측을 가능하게 하고, 비례 및 비비례 위험 모두에 대해 확장 가능한 사례-대조 손실을 도입하며, 파이썬 패키지가 이용 가능하고 실제 데이터 세트에서 경쟁력 있는 성능을 보임.
New methods for time-to-event prediction are proposed by extending the Cox proportional hazards model with neural networks. Building on methodology from nested case-control studies, we propose a loss function that scales well to large data sets, and enables fitting of both proportional and non-proportional extensions of the Cox model. Through simulation studies, the proposed loss function is verified to be a good approximation for the Cox partial log-likelihood. The proposed methodology is compared to existing methodologies on real-world data sets, and is found to be highly competitive, typically yielding the best performance in terms of Brier score and binomial log-likelihood. A python package for the proposed methods is available at https://github.com/havakv/pycox.
연구 동기 및 목표
- 생존 분석을 통한 시간-사건 예측의 동기 부여 및 검열 처리.
- 신경망을 통합하여 비선형 공변량 효과를 포착하는 Cox 모델 확장.
- 대규모 데이터 세트에 적합한 사례-대조 표본추출 기반의 확장 가능한 학습 손실 제공.
- 시간 의존적 상대 위험 함수를 통해 비비례 위험으로의 확장.
- 재현성을 위한 제안 방법을 구현한 파이썬 패키지 배포.
제안 방법
- 선형 예측기 g(x)를 Cox 프레임워크에서 신경망 g(x)로 대체.
- Cox 부분 로그가능도를 근사하고 배치에 확장 가능한 사례-대조 샘플링 기반 손실을 도입(식 8, 9의 손실 형태).
- 비선형 모델(Cox-MLP)로 일반화하고 시간 의존적인 g(t, x)로 비비례 시간 구성요소를 도입(Cox-Time).
- 신경망 사용 시 g(x)를 정규화하기 위한 작은 패널티를 포함(식 10).
- Baseline hazard를 Breslow 방법으로 추정하고 생존 함수를 계산하여 예측을 조정; 비비례 위험의 경우 계산 효율성을 위해 시간에 대해 예측을 이산화.
- 이 방법들을 구현하는 파이썬 패키지(pycox) 제공.
실험 결과
연구 질문
- RQ1신경망이 음폐와 연관된 생존 분석에서 Cox 모델과 결합되어 예측 성능을 향상시킬 수 있는가?
- RQ2대규모 데이터 설정에서 사례-대조 기반 손실이 Cox 부분 로그가능도에 대해 확장 가능하고 정확한 근사를 제공하는가?
- RQ3Cox 프레임워크를 비선형(Cox-MLP) 및 비비례(Cox-Time) 위험으로 확장하는 것이 지나친 계산 비용 없이 가능한가?
- RQ4제안된 방법이 실제 생존 데이터에서 기존 접근법(DeepSurv, DeepHit, RSF)과 비교해 얼마나 우수한가?
주요 결과
- 제안된 사례-대조 손실은 Cox 부분 로그가능도를 근사하며 배치 크기에 관계없이 안정적이다.
- 데이터 크기가 커질수록 Cox-SGD 매개변수 추정은 전통적 Cox 추정에 수렴하며, 더 많은 대조 샘플링은 소규모 데이터에서 유리하지만 계산 비용을 증가시킨다.
- Cox-Time에 의한 비비례 위험은 시뮬레이션 데이터에서 비례 위험 방법보다 생존 함수 추정이 개선된다.
- SUPPORT, METABRIC, Rotterdam & GBSG, FLCHAIN을 포함한 다섯 개의 실제 데이터 세트에서 제안된 방법은 C-지수, Brier 점수, 이항 로그가능도 등의 판별력 및 보정 지표에서 기존 방법에 비해 경쟁력이 있거나 우수하다.
- 저자는 이 방법들을 구현하고 시뮬레이션과 분석 재현을 위한 PyTorch 기반 파이썬 패키지(pycox)를 제공한다.]
- table_headers: []
- table_rows: []} }
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.