Skip to main content
QUICK REVIEW

[論文レビュー] An Efficient Training Algorithm for Kernel Survival Support Vector Machines

Sebastian Pölsterl, Nassir Navab|arXiv (Cornell University)|Nov 21, 2016
Face and Expression Recognition被引用数 32
ひとこと要約

本論文は、切り捨てニュートン最適化と順序統計木を活用することで、カーネル生存サポートベクターマシン(SSVM)の効率的なプライマル最適化アルゴリズムを提案する。これにより、訓練の計算量をO(n⁴)の空間とO(pn⁶)の時間からO(n²)の空間と顕著に低い時間計算量に低減する。この手法により、予測性能を損なわず、大規模で高レベルの打ち切りが生じる生存データセットにおけるスケーラブルな訓練が可能となり、特に打ち切り率が85%以上の場合に、先行手法を上回る性能を発揮する。また、カーネル関数を用いることで、複雑で構造化されたデータの取り扱いも可能となる。

ABSTRACT

Survival analysis is a fundamental tool in medical research to identify predictors of adverse events and develop systems for clinical decision support. In order to leverage large amounts of patient data, efficient optimisation routines are paramount. We propose an efficient training algorithm for the kernel survival support vector machine (SSVM). We directly optimise the primal objective function and employ truncated Newton optimisation and order statistic trees to significantly lower computational costs compared to previous training algorithms, which require $O(n^4)$ space and $O(p n^6)$ time for datasets with $n$ samples and $p$ features. Our results demonstrate that our proposed optimisation scheme allows analysing data of a much larger scale with no loss in prediction performance. Experiments on synthetic and 5 real-world datasets show that our technique outperforms existing kernel SSVM formulations if the amount of right censoring is high ($\geq85\%$), and performs comparably otherwise.

研究の動機と目的

  • カーネルSSVMのトレーニングにかかる高い計算コストに対処すること。これは、n個のサンプルとp個の特徴量に対して、従来O(n⁴)の空間とO(pn⁶)の時間を要していた。
  • 高右打切り率の下で、大規模な生存データに対して非線形SSVMのスケーラブルなトレーニングを可能にすること。既存手法では、この状況では非現実的となる。
  • 先行の効率的な線形SSVMアルゴリズムを、プライマル最適化と高度なデータ構造を用いて非線形カーネルケースに拡張すること。
  • 特に打切り率が85%を超える状況下で、実世界および合成生存データセットにおける予測性能の向上を図ること。
  • カーネル関数を介して、グラフや文字列などの複雑で構造化されたデータ(例:臨床的カーネル)を生存モデリングに効果的に統合できること。

提案手法

  • 双対変数の計算を避けるために、カーネルSSVMのプライマル目的関数を直接最適化する。
  • 大規模かつ非線形の最適化問題をプライマル空間で効率的に解くために、切り捨てニュートン最適化を採用する。
  • 順序統計木を用いて、順序付け損失に不可欠な有効なペアwise比較(i,j)の特定を高速化する。ここで、yᵢ > yⱼ かつ δⱼ = 1 である。
  • 完全なカーネル行列や双対変数の保存を避けることで、O(n²)の空間計算量を維持する。
  • この手法は、先行の線形SSVMアルゴリズムの直接的な拡張であり、カーネルトリックとプライマル最適化を用いて非線形カーネルに対応するように変更されたものである。
  • 実装はhttps://github.com/tum-camp/survival-support-vector-machineにて公開されている。

実験結果

リサーチクエスチョン

  • RQ1双対ベースの手法と比較して、プライマル最適化アプローチが、カーネルSSVMのトレーニングにおける計算量を顕著に低減できるか?
  • RQ2本手法は、右打切り率が85%以上に達する生存データセットにおいて、どのように性能を発揮するか?
  • RQ3順序統計木と切り捨てニュートン最適化の使用により、大規模な生存データセットにおけるスケーラブルなトレーニングが、予測精度を損なわず可能になるか?
  • RQ4本手法は、既存のカーネルSSVM定式化と比較して、特に実行時間と高打切り率下での性能において優れているか?
  • RQ5本手法は、構造化されたデータ表現(例:臨床的カーネルを介して)を効果的に活用できるか? その際、効率性と正確性を維持できるか?

主な発見

  • 提案手法により、空間計算量がO(n⁴)からO(n²)に低減され、従来では不可能だった大規模なデータセットへのトレーニングが可能になった。
  • 右打切りデータの割合が85%以上の場合、本手法は既存のカーネルSSVM定式化を上回る性能を発揮した。特にAIDSおよび虚血性心疾患データセットで顕著な優位性を示した。
  • 打切り率が低いデータセットでは、本手法はMinlipモデルや他のSSVM変種と同等の性能を示したが、顕著な優位性は見られなかった。
  • 比較ペア集合Pを制限する簡素化されたSSVMは、性能が著しく劣っており、線形SSVMに劣る結果となった。これは、Pの制限が効果的でないことを示している。
  • 臨床的カーネルは、RBFカーネルや線形モデルよりも一貫して性能を向上させ、本手法と組み合わせることで最高の結果を達成した。
  • 統計的分析では、全体的にモデル間で予測性能に有意差は認められなかったが、本手法は高いスケーラビリティと高打切り率下でのロバストネスの観点から好まれた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。