[論文レビュー] Multi-level Multiple Instance Learning with Transformer for Whole Slide Image Classification
MMIL-Transformer は階層的 MIL フレームワークと messenger トークンを用いて、大規模な全スライド画像に対して近似なしの自己注意を可能にし、CAMELYON16 と TCGA-NSCLC で強力な結果を達成します。
Whole slide image (WSI) refers to a type of high-resolution scanned tissue image, which is extensively employed in computer-assisted diagnosis (CAD). The extremely high resolution and limited availability of region-level annotations make employing deep learning methods for WSI-based digital diagnosis challenging. Recently integrating multiple instance learning (MIL) and Transformer for WSI analysis shows very promising results. However, designing effective Transformers for this weakly-supervised high-resolution image analysis is an underexplored yet important problem. In this paper, we propose a Multi-level MIL (MMIL) scheme by introducing a hierarchical structure to MIL, which enables efficient handling of MIL tasks involving a large number of instances. Based on MMIL, we instantiated MMIL-Transformer, an efficient Transformer model with windowed exact self-attention for large-scale MIL tasks. To validate its effectiveness, we conducted a set of experiments on WSI classification tasks, where MMIL-Transformer demonstrate superior performance compared to existing state-of-the-art methods, i.e., 96.80% test AUC and 97.67% test accuracy on the CAMELYON16 dataset, 99.04% test AUC and 94.37% test accuracy on the TCGA-NSCLC dataset, respectively. All code and pre-trained models are available at: https://github.com/hustvl/MMIL-Transformer
研究の動機と目的
- 高解像度の WSI が弱くラベル付けされているという課題に対し、スケーラブルな多層 MIL フレームワークを提案する。
- 大規模なインスタンス集合内で正確な局所および全体的な自己注意を可能にする MMIL-Transformer を導入する。
- CAMELYON16 および TCGA-NSCLC データセットにおける優れた WSI 分類性能を示す。
- 精度と計算量のバランスを取るための構成可能なグルーピングおよびマスキング機構を提供する。
- 再現性と今後の研究のためにコードと事前学習済みモデルを公開する。
提案手法
- 元のインスタンスをサブバッグにグルーピングして高レベルのバッグを形成する、微分可能な多層 MIL (MMIL) の定式化を提案する。
- サブバッグを作成し、ターゲットとした注意を可能にするために、座標、埋め込み、ランダム、逐次、MSA ベースなどのさまざまなグルーピング演算子を導入する。
- サブバッグに MSG トークンを追加し、サブバッグ内で自己注意を実行する。サブバッグからの MSG トークンを用いて高レベルのバッグを構築する。
- メッセンジャーベースの生成器を用いてサブバッグからの MSG トークンを高レベルのバッグに統合し、最終分類のために CLS トークンを付与する。
- 活性化されるインスタンス数を削減し性能を向上させる埋め込みごとのマスキング機構を組み込む。
- サブバッグの分割とマスキングを通じて自己注意のオーバーヘッドが低減することを示す複雑さ分析を提供する。
実験結果
リサーチクエスチョン
- RQ1MMIL は WSIs に対する非近似自己注意を用いた大規模 MIL を扱えるか。
- RQ2グルーピングとマスキングは WSI 分類の精度と効率にどう影響するか。
- RQ3CAMELYON16 および TCGA-NSCLC に対して、MMIL-Transformer は最新の MIL/Transformer 手法とどのように比較されるか。
- RQ4MMIL-Transformer フレームワーク内でのパッチエンコーダ(例: ResNet 対 ViT)の影響は何か。
主な発見
| データセット | 手法 | 精度 | AUC |
|---|---|---|---|
| CAMELYON16 | MMIL-Transformer | 0.9341 | 0.9474 |
| TCGA-NSCLC | MMIL-Transformer | 0.9437 | 0.9904 |
- MMIL-Transformer は CAMELYON16 で 96.80% の test AUC および 97.67% の test accuracy を達成(要約欄に記載のとおり)。
- MMIL-Transformer は TCGA-NSCLC で 99.04% の test AUC および 94.37% の test accuracy を達成(要約欄に記載のとおり)。
- CAMELYON16 では、Patch encoder に ResNet-50 を用いた MMIL-Transformer が Table 1 で 0.9341 の accuracy と 0.9474 の AUC を報告。
- TCGA-NSCLC では、Table 1 で 0.9437 の accuracy と 0.9904 の AUC を報告。
- アブレーション研究は、グルーピングタイプ、マスク比、マルチレベルフレームワークが性能と効率に大きく影響することを示し、マスキングが精度を向上させ、上位レベルのバッグ構築が非近似自己注意を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。