QUICK REVIEW

[논문 리뷰] Machine Learning for Survival Analysis: A Survey

Ping Wang, Yan Li|arXiv (Cornell University)|2017. 08. 15.

Statistical Methods and Inference참고 문헌 103인용 수 107

한 줄 요약

이 연구는 검열된 시간-사건 데이터에 대한 전통적 통계 생존 방법과 기계 학습 접근법을 포괄적으로 검토하며, 분류 체계, 평가 지표 및 응용을 포함한다.

ABSTRACT

Accurately predicting the time of occurrence of an event of interest is a critical problem in longitudinal data analysis. One of the main challenges in this context is the presence of instances whose event outcomes become unobservable after a certain time point or when some instances do not experience any event during the monitoring period. Such a phenomenon is called censoring which can be effectively handled using survival analysis techniques. Traditionally, statistical approaches have been widely developed in the literature to overcome this censoring issue. In addition, many machine learning algorithms are adapted to effectively handle survival data and tackle other challenging problems that arise in real-world data. In this survey, we provide a comprehensive and structured review of the representative statistical methods along with the machine learning techniques used in survival analysis and provide a detailed taxonomy of the existing methods. We also discuss several topics that are closely related to survival analysis and illustrate several successful applications in various real-world application domains. We hope that this paper will provide a more thorough understanding of the recent advances in survival analysis and offer some guidelines on applying these approaches to solve new problems that arise in applications with censored data.

연구 동기 및 목표

생존 분석을 위한 대표적인 전통 통계 방법(비모수, 반모수, 모수)에 대한 조사를 실시하고 이들의 특성을 정리한다.
생존 데이터에 적용된 기계 학습 방법을 검토하며, 트리, 베이지안 방법, SVM, 신경망 등을 포함한다.
생존 분석 방법의 분류 체계를 제시하고 평가 지표 및 관련 수식을 논의한다.
경쟁 위험, 재발 이벤트, 데이터 변환 등 관련 주제와 실제 응용에 주목한다.
생존 분석 방법의 구현 및 소프트웨어 자원에 대한 지침을 제공한다.

제안 방법

전통 통계 방법과 머신러닝 접근법을 포괄하는 구조화된 분류 체계를 제공한다.
검열 등의 핵심 개념, 생존/위험 함수, 기반 위험 등을 요약한다.
대표적 방법(KM, NA, LT; Cox 및 그 변형들; 규제화된 및 커널화된 Cox 모형; CoxBoost; TD-Cox)과 그 트레이드오프를 개략적으로 제시한다.
생존 맥락에서 앙상블, 전이 학습, 다중 작업 학습, 활성 학습 등 확장 및 고급 ML 기법에 대해 논의한다.
생존 분석에서 사용되는 평가 지표 및 관련 수식을 설명한다.
경쟁 위험, 재발 이벤트, 비검열화, 보정 및 응용과 구현 세부사항을 포함한 관련 주제를 논의한다.

실험 결과

연구 질문

RQ1생존 분석 방법의 주요 범주(비모수, 반모수, 모수)와 각각의 장점과 한계는 무엇인가?
RQ2머신 러닝 방법들이 생존 분석의 검열 및 시간-사건 데이터 처리를 위해 어떻게 적응되었는가?
RQ3생존 모델의 평가 지표와 수식은 일반적으로 어떤 것들이 사용되는가?
RQ4생존 분석에 적용 가능한 확장 및 고급 ML 기법은 무엇인가(예: 앙상블, 전이 학습, 다중 작업 학습)?
RQ5실용적 응용과 생존 분석 방법의 이용 가능한 소프트웨어 구현은 무엇인가?

주요 결과

본 논문은 생존 분석을 위한 전통적 통계 방법과 기계 학습 접근법의 포괄적 분류 체계와 비교를 제공한다.
검열이 어떻게 처리되는지 개략하고 생존, 위험, 누적 위험 함수 등 핵심 개념을 검토한다.
카플란-마이어(Kaplan-Meier), 넬슨-애런(Nelson-Aalen), Life-Table, Cox 모형 등 잘 알려진 방법과 규제화된/시간 의존적 변형을 다룬다.
생존 데이터에 도입된 고급 ML 접근법으로 앙상블, 전이 학습, 다중 작업 학습 기법을 논의한다.
관련 주제(경쟁 위험, 재발 이벤트) 및 실용적 응용과 구현 고려사항을 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.