Skip to main content
QUICK REVIEW

[논문 리뷰] ggRandomForests: Exploring Random Forest Survival

John Ehrlinger|arXiv (Cornell University)|2016. 12. 28.
Genetics and Plant Breeding참고 문헌 24인용 수 28
한 줄 요약

이 논문은 randomForestSRC를 사용하여 구축한 랜덤 생존 트리(RSF)의 해석 가능성 향상을 위해 ggRandomForests R 패키지를 소개한다. 이 패키지는 ggplot2를 활용하여 변수 중요도, 최소 깊이, 의존성 플롯 및 조건부 상호작용을 시각적으로 탐색할 수 있도록 하며, PBC 간질환 데이터셋을 대상으로 시간-사건 데이터에서 생존 예측에 대한 개선된 이해를 가능하게 하는 상호작용적이고 사용자 정의 가능한 시각화를 제공한다.

ABSTRACT

Random forest (Leo Breiman 2001a) (RF) is a non-parametric statistical method requiring no distributional assumptions on covariate relation to the response. RF is a robust, nonlinear technique that optimizes predictive accuracy by fitting an ensemble of trees to stabilize model estimates. Random survival forests (RSF) (Ishwaran and Kogalur 2007; Ishwaran et al. 2008) are an extension of Breimans RF techniques allowing efficient nonparametric analysis of time to event data. The randomForestSRC package (Ishwaran and Kogalur 2014) is a unified treatment of Breimans random forest for survival, regression and classification problems. Predictive accuracy makes RF an attractive alternative to parametric models, though complexity and interpretability of the forest hinder wider application of the method. We introduce the ggRandomForests package, tools for visually understand random forest models grown in R (R Core Team 2014) with the randomForestSRC package. The ggRandomForests package is structured to extract intermediate data objects from randomForestSRC objects and generate figures using the ggplot2 (Wickham 2009) graphics package. This document is structured as a tutorial for building random forest for survival with the randomForestSRC package and using the ggRandomForests package for investigating how the forest is constructed. We analyse the Primary Biliary Cirrhosis of the liver data from a clinical trial at the Mayo Clinic (Fleming and Harrington 1991). Our aim is to demonstrate the strength of using Random Forest methods for both prediction and information retrieval, specifically in time to event data settings.

연구 동기 및 목표

  • 시간-사건 데이터에 대한 복잡한 랜덤 생존 트리 모델의 해석 가능성 문제를 해결하기 위해.
  • 데이터 추출과 시각화를 분리하여 사용자 통제력을 높이는 모듈형이고 확장 가능한 R 패키지(ggRandomForests)를 개발하기 위해.
  • 표준화되고 사용자 정의 가능한 ggplot2 기반의 그림을 통해 연구자들이 생존 트리에서 변수 중요도, 최소 깊이 및 의존성 구조를 탐색할 수 있도록 하기 위해.
  • 주요 간질환(PBC) 데이터셋을 대상으로 이러한 도구의 유용성을 입증하여 비선형성 및 비비례 위험 효과를 보여주기 위해.
  • 예측 모델링과 해석 분석을 모두 위한 ggRandomForests와 randomForestSRC 통합을 위한 튜토리얼 프레임워크 제공하기 위해.

제안 방법

  • ggRandomForests 패키지는 randomForestSRC 숲 객체로부터 중간 데이터 객체를 추출하여 후속 시각화를 위해 사용한다.
  • 각 시각화 유형에 대해 자체 포함되고 수정 가능한 ggplot2 객체를 생성하기 위해 ggplot2 그래픽 시스템을 사용한다.
  • 변수 중요도(VIMP)와 최소 깊이를 계산하고 시각화하여 생존 예측에 기여하는 변수의 순위를 매긴다.
  • 변수 의존성 및 부분 의존성 플롯을 생성하여 공변수와 생존 결과 간의 마진형 및 조정된 관계를 시각화한다.
  • 조건부 의존성 플롯(coplot)을 사용하여 다른 공변수의 수준에 따라 조건화하여 변수 간 상호작용을 탐색한다.
  • 표준 ggplot2 기능를 통해 사용자 정의 수정을 지원하며, 레이블링, 색상 조합, 스무딩 파라미터 등이 포함된다.

실험 결과

연구 질문

  • RQ1생존 모델링에서 시각적 분석을 통해 랜덤 생존 트리를 어떻게 더 해석 가능하게 만들 수 있는가?
  • RQ2VIMP와 최소 깊이가 생존 데이터에서 동일한 중요한 예측 변수를 식별하는 데 얼마나 유사한가?
  • RQ3의존성 플롯을 통해 어떤 비선형성 및 비비례 위험 관계가 공변수와 생존 결과 간에 드러날 수 있는가?
  • RQ4변수 간 상호작용은 생존 예측에 어떻게 영향을 미치며, 조건부 의존성 플롯을 통해 효과적으로 시각화할 수 있는가?
  • RQ5ggRandomForests 패키지는 R에서 모델 해석 및 사용자 정의 시각화를 위한 민첩하고 확장 가능한 워크플로우를 제공할 수 있는가?

주요 결과

  • 변수 의존성 플롯은 혈액 빌리루빈(bili)이 특히 3년 추적 후에 사망 위험 증가와 강하게 연관되어 있음을 드러내어 비비례 위험을 시사한다.
  • 부분 의존성 플롯은 빌리루빈, coppper, 프로트롬빈 및 연령이 증가할수록 생존율이 감소하고, 알부민 수치가 높을수록 생존율이 향상됨을 보여주었다.
  • 의존성 플롯의 로이드 스무딩 곡선은 특히 빌리루빈과 프로트롬빈에 대해 비선형 관계를 나타내었으며, 이는 파라미터 모델이 쉽게 포착하지 못한 부분이었다.
  • 최소 깊이 분석은 빌리루빈과 알부민을 상위 예측 변수로 식별하였으며, 임상적 기대와 VIMP 순위와 일치하였다.
  • 조건부 의존성 플롯은 빌리루빈이 부종 상태가 높은 환자에서 생존 위험에 미치는 영향이 증폭됨을 보여주어 중요한 상호작용 효과를 시사하였다.
  • 패키지는 단일 그림 내에서 여러 연속형 변수의 패널 시각화를 성공적으로 구현하여 공변수 효과 비교 분석의 해석을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.