[論文レビュー] Modeling Dense Multimodal Interactions Between Biological Pathways and Histology for Survival Prediction
SurvPath は転写系およびWSIの組織組織のトークンを学習し、メモリ効率の高い Transformer と統合してTCGAデータ上で疾患特異的生存を予測し、マルチモーダルな解釈性を提供します。
Integrating whole-slide images (WSIs) and bulk transcriptomics for predicting patient survival can improve our understanding of patient prognosis. However, this multimodal task is particularly challenging due to the different nature of these data: WSIs represent a very high-dimensional spatial description of a tumor, while bulk transcriptomics represent a global description of gene expression levels within that tumor. In this context, our work aims to address two key challenges: (1) how can we tokenize transcriptomics in a semantically meaningful and interpretable way?, and (2) how can we capture dense multimodal interactions between these two modalities? Specifically, we propose to learn biological pathway tokens from transcriptomics that can encode specific cellular functions. Together with histology patch tokens that encode the different morphological patterns in the WSI, we argue that they form appropriate reasoning units for downstream interpretability analyses. We propose fusing both modalities using a memory-efficient multimodal Transformer that can model interactions between pathway and histology patch tokens. Our proposed model, SURVPATH, achieves state-of-the-art performance when evaluated against both unimodal and multimodal baselines on five datasets from The Cancer Genome Atlas. Our interpretability framework identifies key multimodal prognostic factors, and, as such, can provide valuable insights into the interaction between genotype and phenotype, enabling a deeper understanding of the underlying biological mechanisms at play. We make our code public at: https://github.com/ajv012/SurvPath.
研究の動機と目的
- bulk トランスクリプトミクスと全スライド画像 WSIs の統合を動機づけ、患者の生存予測を改善する。
- 生物学的経路に基づく意味論的に有意なトランスクリプトミクス・トークン化を提案し、エンドツーエンド学習を実現する。
- dense な経路–パッチ相互作用をモデル化するメモリ効率の高い Transformer 融合を開発する。
- 単一モードおよびクロスモーダルの予後因子を明らかにする多層解釈可能性フレームワークを提供する。
- 単モーダルおよび他のマルチモーダルベースラインと比較して、5つのTCGAデータセットで最先端の性能を示す。
提案手法
- 遺伝子発現から経路表現への疎な MLP マッピングを用いて、トランスクリプトミクスを生物学的経路トークンにトークン化する。
- 事前学習済み Swin Transformer を用いて WSIs から組織パッチ・トークンを抽出し、共通のトークン次元に投影する。
- 経路トークンとパッチトークンを、経路–経路、経路–パッチ、パッチ–経路の相互作用をデカップリングし、パッチ–パッチの相互作用を無視するメモリ効率の高い Transformer で融合する。
- 抑制下でネガティブロジック尤度生存損失を用いた離散時間ハザードモデルで生存を予測する。
- 経路/遺伝子への Integrated Gradients とクロスモーダル相互作用(経路↔パッチ)の Transformer アテンションを用いた解釈可能性フレームワークを提供する。
実験結果
リサーチクエスチョン
- RQ1経路ベースのトークン化は、マルチモーダル予後予測に有意義な細胞プロセスを捉えることができるか。
- RQ2経路トークンと組織パッチトークンの密な相互作用をメモリ効率の高い Transformer でモデル化して生存予測を改善できるか。
- RQ3経路とパッチの早期フュージョンは生存分析において遅延フュージョンのベースラインより優れているか。
- RQ4モデルのアテンションと寄与分析から、どのような単一モードおよびクロスモーダルの予後洞察が得られるか。
主な発見
| Model/Study | BRCA (↑) | BLCA (↑) | COADREAD (↑) | HNSC (↑) | STAD (↑) | Overall (↑) | |
|---|---|---|---|---|---|---|---|
| ABMIL [14] | 0.493 ±0.126 | 0.518 ±0.078 | 0.630 ±0.102 | 0.580 ±0.019 | 0.550 ±0.077 | 0.554 | |
| AMISL [6] | 0.500 ±0.000 | 0.500 ±0.000 | 0.500 ±0.000 | 0.518 ±0.015 | 0.506 ±0.014 | 0.508 | |
| TransMIL [15] | 0.530 ±0.057 | 0.551 ±0.091 | 0.632 ±0.143 | 0.523 ±0.043 | 0.544 ±0.080 | 0.556 | |
| Omics | MLP | 0.611 ±0.080 | 0.627 ±0.062 | 0.625 ±0.060 | 0.548 ±0.045 | 0.586 ±0.098 | 0.599 |
| SNN [72] | 0.528 ±0.094 | 0.584 ±0.113 | 0.521 ±0.109 | 0.550 ±0.065 | 0.565 ±0.080 | 0.550 | |
| S-MLP [67] | 0.512 ±0.028 | 0.595 ±0.114 | 0.581 ±0.066 | 0.542 ±0.052 | 0.515 ±0.081 | 0.549 | |
| Multimodal | ABMIL (Cat) [61] | 0.541 ±0.158 | 0.562 ±0.067 | 0.592 ±0.102 | 0.580 ±0.089 | 0.523 ±0.098 | 0.560 |
| ABMIL (KP) [21] | 0.615 ±0.083 | 0.566 ±0.038 | 0.584 ±0.109 | 0.566 ±0.066 | 0.525 ±0.140 | 0.571 | |
| AMISL (Cat) [6] | 0.462 ±0.179 | 0.518 ±0.055 | 0.510 ±0.137 | 0.478 ±0.051 | 0.538 ±0.025 | 0.501 | |
| AMISL (KP) [6] | 0.533 ±0.106 | 0.554 ±0.055 | 0.567 ±0.182 | 0.516 ±0.068 | 0.565 ±0.062 | 0.544 | |
| TransMIL (Cat) [15] | 0.598 ±0.087 | 0.630 ±0.047 | 0.539 ±0.189 | 0.542 ±0.091 | 0.536 ±0.090 | 0.569 | |
| TransMIL (KP) [15] | 0.629 ±0.144 | 0.625 ±0.079 | 0.566 ±0.081 | 0.515 ±0.116 | 0.552 ±0.035 | 0.577 | |
| MCAT [26] | 0.652 ±0.117 | 0.598 ±0.094 | 0.634 ±0.204 | 0.531 ±0.049 | 0.557 ±0.101 | 0.594 | |
| SurvPath (Ours) | 0.655 ±0.089 | 0.625 ±0.056 | 0.673 ±0.170 | 0.600 ±0.061 | 0.592 ±0.047 | 0.629 |
- SurvPath は、単一モードおよびマルチモーダルベースラインと比較して5つのTCGAデータセットで最先端のコンコーダンス (c-index) を達成した。
- 経路ベースのトランスクリプトミクス・トークン(331 経路)は、予後と意味論的に整合し、ヒストロジー特徴と整合する学習可能な単位を提供する。
- メモリ効率の高いアテンション機構により、経路–パッチおよび経路–経路の相互作用を大規模にモデル化でき、メモリコストを抑える。
- 生存予測はモダリティの早期フュージョンから利益を得て、いくつかのベースラインフュージョン戦略を上回った。
- 解釈可能性分析は、主要なマルチモーダル予後因子を特定し、特定の経路が形態学的パターンとどのように相互作用するかを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。