[論文レビュー] PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology
PRISMは、臨床報告で事前学習されたH&E病理組織学のスライドレベルの多模態ファウンデーションモデルです。ゼロショットの癌検出・亜分類、ラベル効率の高いバイオマーカー予測、及び全スライド画像からの解釈可能なレポート生成を実現します。
Foundation models in computational pathology promise to unlock the development of new clinical decision support systems and models for precision medicine. However, there is a mismatch between most clinical analysis, which is defined at the level of one or more whole slide images, and foundation models to date, which process the thousands of image tiles contained in a whole slide image separately. The requirement to train a network to aggregate information across a large number of tiles in multiple whole slide images limits these models' impact. In this work, we present a slide-level foundation model for H&E-stained histopathology, PRISM, that builds on Virchow tile embeddings and leverages clinical report text for pre-training. Using the tile embeddings, PRISM produces slide-level embeddings with the ability to generate clinical reports, resulting in several modes of use. Using text prompts, PRISM achieves zero-shot cancer detection and sub-typing performance approaching and surpassing that of a supervised aggregator model. Using the slide embeddings with linear classifiers, PRISM surpasses supervised aggregator models. Furthermore, we demonstrate that fine-tuning of the PRISM slide encoder yields label-efficient training for biomarker prediction, a task that typically suffers from low availability of training data; an aggregator initialized with PRISM and trained on as little as 10% of the training data can outperform a supervised baseline that uses all of the data.
研究の動機と目的
- WSIの多数のタイルをまたいだ集約課題を克服するために、計算病理学におけるスライドレベルのファウンデーションモデリングを動機づける。
- Virchowタイル埋め込みと臨床文を統合してスライドレベルの表現とレポート生成を実現するPRISMを開発する。
- 癌検出、癌亜分類、バイオマーカー予測のためのゼロショット、線形プロービング、ファインチューニングの能力を示す。
- テキストガイド付き前学習が、完全に監視された集約器よりも性能とデータ効率を改善することを示す。
- 生成された病理レポートの解釈性とタイルレベルの注意機構を探る。
提案手法
- Virchowタイル埋め込みを1つのスライド埋め込みに集約するスライドレベルエンコーダ(Perceiver)を事前学習する。
- デコーダとしてBioGPT言語モデルを用い、対比損失によりスライド埋め込みを書き換えられた臨床レポートと整合させる。
- 対比整合と自己回帰レポート生成(教師あり強制)を組み合わせたCoCa風の目的関数で訓練する。
- 診断を抽出しGPT-4で書き直して要約を作成することで臨床レポートを前処理する。
- 線形分類器での微調整またはエンドツーエンド微調整により下流タスクへスライドエンコーダを微調整する。
- 癌検出、癌亜分類、バイオマーカー予測タスクでゼロショット、線形プロービング、ファインチューニングを評価する。
実験結果
リサーチクエスチョン
- RQ1臨床レポートで訓練されたスライドレベルのファウンデーションモデルは、タスク固有の監督なしでゼロショットの癌検出と亜分類を達成できるのか?
- RQ2タイル埋め込みをスライドレベルの表現に集約することは、タイルレベルまたはゼロイチで訓練した集約器より下流タスクの性能を改善するのか?
- RQ3臨床レポート監督付き前学習は、バイオマーカー(MSK-IMPACT)予測のデータ効率にどのような影響を与えるのか?
- RQ4生成された臨床レポートは解釈可能で、スライド中の組織病理学的特徴と整合しているか?
主な発見
- PRISMは、いくつかのタスクで、ゼロショットの癌検出と亜分類の性能を、監督付き集約器に近づけるかそれを超える水準で達成する。
- 事前学習済みのスライド埋め込みを用いた線形プロービングは、癌亜分類と検出タスクで完全な監視ベースのベースラインを上回る。
- 事前学習済みスライドエンコーダをファインチューニングすると、データが少ないバイオマーカー予測で強い性能を示し、データが限られている場合にベースラインを上回る(例: データの10–50%程度で)
- 臨床レポートでの前学習は、データ効率を改善し、複数のバイオマーカーで実行間の性能分散を減らす。
- 生成されたレポートは、注意を払ったタイルと病理医がテキストに言及した組織学的特徴との質的対応を示す。
- PRISMは、タスク特定の監督なしで解釈可能なスライドレベル埋め込みとテキストベースのレポート生成をサポートする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。