QUICK REVIEW

[論文レビュー] Towards a Visual-Language Foundation Model for Computational Pathology

Ming Y. Lu, Bowen Chen|arXiv (Cornell University)|Jul 24, 2023

AI in cancer detection被引用数 18

ひとこと要約

本論文は CONCH という、計算病理学の視覚言語ファウンデーションモデルを紹介する。1.17百万 image-caption ペア以上で学習し、分類・検索・セグメンテーション・キャプショニングの13件の病理組織ベンチマークにおいて、ゼロショットおよび少数ショットの最先端性能を達成する。

ABSTRACT

The accelerated adoption of digital pathology and advances in deep learning have enabled the development of powerful models for various pathology tasks across a diverse array of diseases and patient cohorts. However, model training is often difficult due to label scarcity in the medical domain and the model's usage is limited by the specific task and disease for which it is trained. Additionally, most models in histopathology leverage only image data, a stark contrast to how humans teach each other and reason about histopathologic entities. We introduce CONtrastive learning from Captions for Histopathology (CONCH), a visual-language foundation model developed using diverse sources of histopathology images, biomedical text, and notably over 1.17 million image-caption pairs via task-agnostic pretraining. Evaluated on a suite of 13 diverse benchmarks, CONCH can be transferred to a wide range of downstream tasks involving either or both histopathology images and text, achieving state-of-the-art performance on histology image classification, segmentation, captioning, text-to-image and image-to-text retrieval. CONCH represents a substantial leap over concurrent visual-language pretrained systems for histopathology, with the potential to directly facilitate a wide array of machine learning-based workflows requiring minimal or no further supervised fine-tuning.

研究の動機と目的

計算病理学（CPath）におけるラベル不足とタスク固有データ制約を解消する。
多様な病理組織タスクに一般化するタスク非依存的な視覚言語ファウンデーションモデルを開発する。
病理ワークフローにおけるゼロショット、少数ショット、および多模態推論を可能にする、大規模な病理画像-キャプションデータを活用する。

提案手法

CoCa をベースとした画像エンコーダ、テキストエンコーダ、マルチモーダル融合デコーダを用いて CONCH を構築する。
画像とテキスト表現を整列させるコントラスト学習と、画像を条件にキャプションを生成するキャプショニング目的で事前学習を行う。
自動クレンジング後に1,790,000ペアから人間のみの前学習データセットを1,170,000 image-caption ペアに assembling する。
スライドレベルおよび ROI レベルのタスクを含む13件の下流ベンチマークで、ゼロショット・少数ショット・教師ありの性能を評価する。
タイルベースの集計によるギガピクセル WSIs のクロスモーダル検索（テキスト-画像および画像-テキスト）とゼロショットセグメンテーションを評価する。
限られたラベルデータで微調整し、ゼロショットベースラインと少数ショット学習を比較する。

実験結果

リサーチクエスチョン

RQ1多くの病理組織特化の視覚言語モデルは、タスク固有の微調整なしに、 diverse tasks で強力なゼロショット性能を達成できるか。
RQ2CONCH は、ROI および全スライド画像タスクで、分類・検索・セグメンテーション・キャプショニングをゼロショットおよび少数ショット設定でどのように性能を示すか。
RQ3 joint vision-language pretraining はラベル効率を改善し、病理におけるクロスモーダル検索を実現できるか。
RQ4タイルベースの集約と重複タイル配置を用いた WSIs のゼロショットセグメンテーションの可能性はどれほどか。
RQ5CONCH は病理向けに設計された既存の視覚言語モデル（例：PLIP、BiomedCLIP、OpenAICLIP）と比較して、ベンチマークでどの程度優れているか。

主な発見

CONCH は4つのスライドレベルおよび3つのROIレベルのタスクで最先端のゼロショット性能を達成し、しばしばベースラインよりも sizable margins で上回る。
ゼロショット CCN テストは NSCLC サブタイプ分類で高精度（90.0%）、 RCC サブタイプ分類で89.3%、BRCA サブタイプで84.0% を示し、LUAD パターンのカッパ値は次点ベースラインより約0.16 向上。
ROI タスクでは、CONCH は CRC100k 精度 79.1%、WSSS4LUAD 精度 71.9% を達成し、PLIP をそれぞれ11.7ポイントおよび9.5ポイント上回る；SICAP カッパは0.711となり BiomedCLIP を0.158上回る。
クロスモーダル検索（テキスト-画像および画像-テキスト）の平均リコールは、Source A、Source B、TCGA-LUAD のデータセット全体でベースラインより上回る。
SICAPおよびDigestPath におけるゼロショットセグメンテーションは、ラベルデータなしで粗粒度のセグメンテーション能力を示し、 dice、recall、precision の指標を改善。
キャプショニング実験では、Source A データセットの held-out に微調整後、METEOR および ROUGE で GIT ベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。