QUICK REVIEW

[논문 리뷰] K-Adaptive Partitioning for Survival Data with an Application to SEER: The kaps Add-on Package for R

Soo‐Heang Eo, Seung‐Mo Hong|arXiv (Cornell University)|2013. 06. 19.

Bayesian Methods and Mixture Models인용 수 1

한 줄 요약

이 논문은 예후 인자 데이터를 K개의 상이한 생존 결과를 보이는 하위군으로 나누는 데 최소 상호 로그 랭크 검정 통계량을 최대화함으로써, K-적응 분할이라는 다중 방식의 생존 분석 방법을 제안한다. 이 방법은 최적의 K를 선택하기 위해 순열 검정을 사용하며, 의료 연구에서 사용할 수 있도록 R 패키지 'maps'에 구현되어 있으며, SEER 대장암 데이터를 사용한 하위군 이질성 탐지에서 이진 재귀 분할보다 뛰어난 성능을 보였다.

ABSTRACT

In medical research, it is often needed to obtain subgroups with heterogeneous survivals, which have been predicted from a prognostic factor. For this purpose, a binary split has often been used once or recursively; however, binary partitioning may not provide an optimal set of well separated subgroups. We propose a multi-way partitioning algorithm, which divides the data into K heterogeneous subgroups based on the information from a prognostic factor. The resulting subgroups show significant differences in survival. Such a multi-way partition is found by maximizing the minimum of the subgroup pairwise test statistics. An optimal number of subgroups is determined by a permutation test. Our developed algorithm is compared with two binary recursive partitioning algorithms. In addition, its usefulness is demonstrated with a real data of colorectal cancer cases from the Surveillance Epidemiology and End Results program. We have implemented our algorithm into an R package maps, which is freely available in the Comprehensive R Archive Network (CRAN).

연구 동기 및 목표

이진 재귀 분할의 한계를 해결하기 위해 이질적인 생존 결과를 보이는 하위군을 생성하는 데 목적이 있다.
예후 인자를 기반으로 최대한 다른 생존 패턴을 보이는 K개의 하위군을 식별하는 다중 방식 분할 알고리즘을 개발하는 데 목적이 있다.
가족별 오류율을 순열 기반의 유의성 검정을 통해 제어함으로써 최적의 하위군 수(K)를 결정하는 데 목적이 있다.
특히 대규모 인구 기반 데이터셋에서 임상 및 역학 연구의 하위군 식별을 향상시키는 데 목적이 있다.
공개 접근과 재현 가능 연구를 위해 R 패키지('maps')로 구현하는 데 목적이 있다.

제안 방법

알고리즘은 모든 하위군 쌍 간의 상호 로그 랭크 검정 통계량의 최소값을 최대화함으로써 생존 데이터를 K개의 하위군으로 분할한다.
관측치를 K개의 군집에 반복적으로 할당하여 생존 결과의 하위군 간 분리를 극대화하는 그리디 최적화 접근법을 사용한다.
최적의 하위군 수 K는 최소 상호 검정 통계량의 유의성을 평가하는 순열 검정을 통해 선정된다.
순열 기반 p-값 추정을 통해 가족별 오류율을 제어함으로써 과적합을 방지하도록 설계되었다.
이 알고리즘은 CRAN에 공개된 R 패키지 'maps'(K-Adaptive Partitioning for Survival data)에 구현되어 있으며, 일반 사용을 위해 제공된다.
하위군 이질성과 통계적 검정력 평가를 위해 두 가지 표준 이진 재귀 분할 방법과 비교되었다.

실험 결과

연구 질문

RQ1다중 방식 분할은 이진 재귀 분할보다 더 이질적이고 통계적으로 구별되는 생존 하위군을 생성할 수 있는가?
RQ2생존 차이를 극대화하면서도 통계적 유의성을 유지하는 최적의 하위군 수(K)는 무엇인가?
RQ3실제 인구 기반 암 데이터에서 제안된 방법은 임상적으로 의미 있는 하위군을 어떻게 식별하는가?
RQ4과적합을 피하기 위해 순열 기반 접근법이 하위군 수를 신뢰성 있게 결정할 수 있는가?
RQ5기존의 이진 분할 기법에 비해 K-적응 분할 방법의 성능은 어떻게 비교되는가?

주요 결과

K-적응 분할 방법은 유의미하게 다른 생존 결과를 보이는 하위군을 성공적으로 식별하였으며, 이는 이진 재귀 분할에 비해 뛰어난 이질성을 보였다.
순열 검정은 모델 복잡성과 통계적 유의성의 균형을 유지하면서 최적의 하위군 수를 효과적으로 결정하였다.
SEER 대장암 데이터셋에서, 예후 인자를 기반으로 한 K개의 하위군 간에 뚜렷한 생존 패턴의 차이가 드러났으며, 임상적으로 의미 있는 위험 분류를 강조하였다.
최소 상호 로그 랭크 검정 통계량으로 측정한 바, 제안된 알고리즘은 두 가지 이진 재귀 분할 방법보다 하위군 차이를 더 잘 탐지하는 데 성공하였다.
R 패키지 'maps'는 성공적으로 개발되어 CRAN에 공개되어 생존 분석 연구에서 널리 사용될 수 있도록 하였다.
이 방법은 특히 인구 기반 암 연구에 적합한, 비이진적 대안으로서 강력한 생존 데이터 분석 기법을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.