[論文レビュー] K-Adaptive Partitioning for Survival Data with an Application to SEER: The kaps Add-on Package for R
本稿では、予後因子データを生存結果が著しく異なるK個の異なるサブグループに分割するよう最適化することで、最小の対比較ログランク検定統計量を最大化する多項生存解析手法「K-適応的分割法」を提案する。この手法は、最適なKを特定するためにパーミュテーション検定を用い、医療研究での利用を想定してRパッケージ'maps'に実装されている。SEER大腸癌データを用いた比較では、二分木的再帰的分割法を上回るサブグループの異質性検出性能を示した。
In medical research, it is often needed to obtain subgroups with heterogeneous survivals, which have been predicted from a prognostic factor. For this purpose, a binary split has often been used once or recursively; however, binary partitioning may not provide an optimal set of well separated subgroups. We propose a multi-way partitioning algorithm, which divides the data into K heterogeneous subgroups based on the information from a prognostic factor. The resulting subgroups show significant differences in survival. Such a multi-way partition is found by maximizing the minimum of the subgroup pairwise test statistics. An optimal number of subgroups is determined by a permutation test. Our developed algorithm is compared with two binary recursive partitioning algorithms. In addition, its usefulness is demonstrated with a real data of colorectal cancer cases from the Surveillance Epidemiology and End Results program. We have implemented our algorithm into an R package maps, which is freely available in the Comprehensive R Archive Network (CRAN).
研究の動機と目的
- 二分木的再帰的分割法が、生存結果の異質性が著しいサブグループを生成する点での限界を是正すること。
- 予後因子に基づき、生存パターンが最大限に異なるK個のサブグループを同定する多項分割アルゴリズムの開発。
- 最小の対比較検定統計量の有意性を評価するパーミュテーションに基づく有意性検定を用いて、最適なサブグループ数Kを特定すること。
- 特に大規模な人口ベースのデータセットを対象とした臨床および疫学的研究におけるサブグループ同定の改善。
- オープンアクセスおよび再現可能性を考慮し、Rパッケージ(maps)として実装すること。
提案手法
- アルゴリズムは、すべてのサブグループ対間における対比較ログランク検定統計量の最小値を最大化するように、生存データをK個のサブグループに分割する。
- 観察単位をK個のグループに段階的に割り当てることで、生存結果の分離を最大化するグリーディー最適化アプローチを用いる。
- 最適なサブグループ数Kは、最小の対比較検定統計量の有意性を評価するパーミュテーション検定により選択される。
- パーミュテーションに基づくp値推定により家族誤差率を制御することで、過剰適合を回避するように設計されている。
- アルゴリズムは、公開用にCRANに登録されたRパッケージ'maps'(K-適応的分割法 for 生存データ)として実装されている。
- サブグループの異質性と統計的パワーの評価を目的として、2つの標準的な二分木的再帰的分割法と比較された。
実験結果
リサーチクエスチョン
- RQ1多項分割法は、二分木的再帰的分割法と比較して、より異質的かつ統計的に明確に区別された生存サブグループを生成できるか?
- RQ2生存差を最大限にし、統計的有意性を維持する最適なサブグループ数Kは何か?
- RQ3本手法は、現実の人口ベースのがんデータにおいて、臨床的に意味のあるサブグループを効果的に同定できるか?
- RQ4パーミュテーションに基づくアプローチは、過剰適合を避けてサブグループ数を信頼性高く特定できるか?
- RQ5K-適応的分割法は、生存解析における既存の二分木的分割手法と比較して、性能に優れているか?
主な発見
- K-適応的分割法は、生存結果が著しく異なるサブグループを的確に同定し、二分木的再帰的分割法と比較して優れた異質性を示した。
- パーミュテーション検定は、モデルの複雑さと統計的有意性のバランスをとる最適なサブグループ数を的確に特定した。
- SEER大腸癌データセットにおいて、予後因子に基づくK個のサブグループに分けた結果、明確に異なる生存パターンが明らかになり、臨床的意味のあるリスク分類が可能となった。
- 最小の対比較ログランク検定統計量を指標として評価したところ、本手法は2つの二分木的再帰的分割法を上回るサブグループ差の検出性能を示した。
- Rパッケージ'maps'は正常に開発され、CRANに公開され、生存解析研究分野での広範な利用が可能となった。
- 本手法は、特に人口ベースのがん研究に適した、非二分の代替手法として、堅牢に機能することが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。