[論文レビュー] Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images
MI-Zero は gigapixel 全スライド病理画像に対して視覚言語エンコーダを整列させ、複数インスタンス学習を適用することでゼロショット転送を実現し、3つの癌サブタイプ分類タスクにおいて 70.2% の平均中央値ゼロショット精度を達成します。
Contrastive visual language pretraining has emerged as a powerful method for either training new language-aware image encoders or augmenting existing pretrained models with zero-shot visual recognition capabilities. However, existing works typically train on large datasets of image-text pairs and have been designed to perform downstream tasks involving only small to medium sized-images, neither of which are applicable to the emerging field of computational pathology where there are limited publicly available paired image-text datasets and each image can span up to 100,000 x 100,000 pixels. In this paper we present MI-Zero, a simple and intuitive framework for unleashing the zero-shot transfer capabilities of contrastively aligned image and text models on gigapixel histopathology whole slide images, enabling multiple downstream diagnostic tasks to be carried out by pretrained encoders without requiring any additional labels. MI-Zero reformulates zero-shot transfer under the framework of multiple instance learning to overcome the computational challenge of inference on extremely large images. We used over 550k pathology reports and other available in-domain text corpora to pre-train our text encoder. By effectively leveraging strong pre-trained encoders, our best model pretrained on over 33k histopathology image-caption pairs achieves an average median zero-shot accuracy of 70.2% across three different real-world cancer subtyping tasks. Our code is available at: https://github.com/mahmoodlab/MI-Zero.
研究の動機と目的
- ゼロショット転送のための病理学における大規模な画像-テキスト対データの不足に対処する。
- gigapixel WSIs 上で動作する対照的に整列した画像-テキストエンコーダを活用する。
- 複数インスタンス学習フレームワークを用いてゼロショット WSI 分類を定式化する。
- ドメイン内テキストデータを用いて複数の癌サブタイプ分類タスクで性能を示す。
提案手法
- 550k を超える病理報告と PubMed 抄録に基づき、ドメイン特化のテキストエンコーダ(HistPathGPT)を事前学習する。
- ヒストopathology 画像エンコーダの最新手法(CTP)または組織学パッチで事前学習された代替案を用いる。
- 512次元の潜在空間で、i2t および t2i 方向のクロスモーダル対照損失を用いて画像とテキストの埋め込みを整列させる。
- WSIs をパッチ(インスタンス)に分割し、パッチ埋め込みを計算し、プロンプト埋め込みとのコサイン類似度を用いてクラススコアを算出する。
- 置換不変プーリング(mean または topK)や空間的に滑らかなグラフベースのプーリングを用いてパッチスコアを集約し、スライドレベルの予測を得る。
- ゼロショット分類のために各クラスのプロンプトベースのテキスト埋め込みを用い、集約された画像-テキスト類似度で最良を選択する。
実験結果
リサーチクエスチョン
- RQ1MIL ベースの集約を用いて、ゼロショット転送を gigapixel histopathology WSIs に効果的に適用できるか。
- RQ2ドメイン特化のテキスト事前学習(HistPathGPT)は、非ドメインのテキストモデルと比較してゼロショット WSI 分類を改善するか。
- RQ3プーリング戦略(mean 対 topK)と空間的スムージングがゼロショット WSI の性能に与える影響はどの程度か。
- RQ4事前学習データの規模とモダリティの組み合わせが BRCA、NSCLC、RCC のサブタイプ分類タスクにおけるゼロショット精度にどう影響するか。
主な発見
| Model | Text Encoder & Pretraining | SS | Pooling | BRCA | NSCLC | RCC | Average |
|---|---|---|---|---|---|---|---|
| ABMIL (1% Data) | None | ✗ | attention | 0.510 | 0.709 | 0.557 | 0.592 |
| ABMIL (100% Data) | None | ✗ | attention | 0.843 | 0.893 | 0.855 | 0.864 |
| MI-Zero (Ours) | HistPathGPT (None) | ✗ | topK | 0.625 | 0.680 | 0.653 | 0.653 |
| HistPathGPT (In-domain) | ✗ | topK | 0.673 | 0.700 | 0.733 | 0.702 | |
| PubMedBert (Out-of-domain) | ✗ | topK | 0.570 | 0.693 | 0.777 | 0.680 | |
| BioclinicalBert (Out-of-domain) | ✗ | topK | 0.660 | 0.742 | 0.697 | 0.700 | |
| MI-Zero (Ours) | HistPathGPT (None) | ✗ | mean | 0.655 | 0.593 | 0.577 | 0.608 |
| HistPathGPT (In-domain) | ✗ | mean | 0.620 | 0.590 | 0.633 | 0.614 | |
| PubMedBert (Out-of-domain) | ✗ | mean | 0.585 | 0.650 | 0.727 | 0.654 | |
| BioclinicalBert (Out-of-domain) | ✗ | mean | 0.672 | 0.680 | 0.543 | 0.632 |
- HistPathGPT のインドメインテキストデータを用いた MI-Zero は、3つのサブタイプ分類タスクで平均 70.2% の精度を達成。
- TopK プーリングは一般にゼロショット WSI 分類で mean プーリングより上回る。
- ドメイン内テキストの事前学習は、ドメイン外・スクラッチのテキストモデルよりも複数の構成で性能を向上させる。
- 画像エンコーダ(CTP)とテキストエンコーダの事前学習は、Table 1 の構成で最良の総合性能をもたらす。
- 1% のラベル付きデータを使用した競合的なゼロショット手法は、いくつかのタスクで監視付きベースラインに近づく。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。