[論文レビュー] TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classification
TransMIL は全スライド画像分類のための Transformer ベースの相関 MIL フレームワークを導入し、形態情報と空間情報の両方を活用して、複数のデータセットにおいて最先端の MIL 法を上回り、より速い収束とより良い解釈性を実現します。
Multiple instance learning (MIL) is a powerful tool to solve the weakly supervised classification in whole slide image (WSI) based pathology diagnosis. However, the current MIL methods are usually based on independent and identical distribution hypothesis, thus neglect the correlation among different instances. To address this problem, we proposed a new framework, called correlated MIL, and provided a proof for convergence. Based on this framework, we devised a Transformer based MIL (TransMIL), which explored both morphological and spatial information. The proposed TransMIL can effectively deal with unbalanced/balanced and binary/multiple classification with great visualization and interpretability. We conducted various experiments for three different computational pathology problems and achieved better performance and faster convergence compared with state-of-the-art methods. The test AUC for the binary tumor classification can be up to 93.09% over CAMELYON16 dataset. And the AUC over the cancer subtypes classification can be up to 96.03% and 98.82% over TCGA-NSCLC dataset and TCGA-RCC dataset, respectively. Implementation is available at: https://github.com/szc19990412/TransMIL.
研究の動機と目的
- i.i.d. インスタンス仮定を超えてインスタンス間の相関をモデル化することで、弱教師あり WSI 分類に対処する。
- パッチ間の形態学的および空間的関係の両方を捉える Transformer ベースの MIL(TransMIL)を提案する。
- 病理学における相関 MIL の収束性があり解釈可能で効率的な three-step アルゴリズムを提供する。
- 複数の公開ヒストパソロジー・データセットで優れた性能とより速い収束を実証する。
提案手法
- 収束性の証明を備えた一般的な三段階の相関 MIL フレームワークを提案する。
- パッチ埋め込み間の長距離相関をモデル化する Transformer ベースの Temporal Patch Transformer (TPT) モジュールを用いた TransMIL を開発する。
- 条件付きの多尺度空間位置エンコーディングのための Pyramid Position Encoding Generator (PPEG) を導入する。
- Nyström ベースの近似自己注意を TPT で長い系列を効率的に処理する。
- 形態情報(f)、空間情報(h)、およびそれらの和(fh)の埋め込みを結合し、学習されたプーリング行列 P と最終的なマッピング g を bag ラベルへ適用する。
- 交差エントロピー損失と Lookahead 最適化子を用いた ResNet50 ベースのパッチ埋め込み(1024-d、512-d に縮小)でエンドツーエンドの学習設定を提供する。
実験結果
リサーチクエスチョン
- RQ1WSI 内のインスタンス間の相関をモデル化することで、i.i.d.-ベースの MIL 手法と比べて MIL ベースの分類性能を改善できるか?
- RQ2Transformer ベースのアーキテクチャを、空間的文脈を保持しつつ大規模・可変長の WSI パッチ列に適応させるには?
- RQ3条件付きの多尺度位置エンコーディング(PPEG)は病理学の MIL における診断性能と解釈性を向上させるか?
- RQ4TransMIL は二値および多クラスの WSI 分類タスクや非均衡データセットに対して効果的か?
- RQ5相関 MIL アプローチは既存の MIL 手法より収束が速いか?
主な発見
| Dataset | Metric | Mean-pooling | Max-pooling | ABMIL | PT-MTA | MIL-RNN | DSMIL | CLAM-SB | CLAM-MB | TransMIL |
|---|---|---|---|---|---|---|---|---|---|---|
| CAMELYON16 | Accuracy | 0.6389 | 0.8062 | 0.8682 | 0.8217 | 0.8450 | 0.7985 | 0.8760 | 0.8372 | 0.8837 |
| CAMELYON16 | AUC | 0.4647 | 0.8569 | 0.8760 | 0.8454 | 0.8880 | 0.8179 | 0.8809 | 0.8679 | 0.9309 |
| TCGA-NSCLC | Accuracy | 0.7282 | 0.8593 | 0.7719 | 0.7379 | 0.8619 | 0.8058 | 0.8180 | 0.8422 | 0.8835 |
| TCGA-NSCLC | AUC | 0.8401 | 0.9463 | 0.8656 | 0.8299 | 0.9107 | 0.8925 | 0.8818 | 0.9377 | 0.9603 |
| TCGA-RCC | Accuracy | 0.9054 | 0.9378 | 0.8934 | 0.9059 | - | 0.9294 | 0.8816 | 0.8966 | 0.9466 |
| TCGA-RCC | AUC | 0.9786 | 0.9879 | 0.9702 | 0.9700 | - | 0.9841 | 0.9723 | 0.9799 | 0.9882 |
- TransMIL は 3 つの公開データセット: CAMELYON16、TCGA-NSCLC、TCGA-RCC で最先端の性能を達成。
- CAMELYON16 では、TransMILACCURACY 0.8837 および AUC 0.9309、i.i.d.-ベースの手法および一部の non-local 手法を上回る。
- TCGA-NSCLC では、TransMIL は ACC 0.8835 と AUC 0.9603 を達成し、競合手法を上回る。
- TCGA-RCC では、TransMIL は ACC 0.9466 と AUC 0.9882 を達成し、報告された手法の中で最良。
- アブレーションにより、PPEG と条件付き位置エンコーディングが、正弦波型や位置エンコーディングなしと比較して性能を著しく改善することが示された。
- TransMIL は収束が速く、競合する MIL 手法より2~3倍少ない学習エポックで済む。
- 注意マップの可視化は、腫瘍領域との高い重複を示し、解釈性を裏付ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。