Skip to main content
QUICK REVIEW

[논문 리뷰] Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images

Ming Y. Lu, Bowen Chen|arXiv (Cornell University)|2023. 06. 13.
AI in cancer detection인용 수 10
한 줄 요약

MI-Zero는 시각-언어 인코더를 정렬하고 다중 인스턴스 학습을 적용하여 기가픽셀 전슬 슬라이드 조직병리 이미지에서 제로샷 전이를 가능하게 하며, 세 가지 암 하위타입 분류 작업에서 70.2%의 평균 중앙값 제로샷 정확도를 달성한다.

ABSTRACT

Contrastive visual language pretraining has emerged as a powerful method for either training new language-aware image encoders or augmenting existing pretrained models with zero-shot visual recognition capabilities. However, existing works typically train on large datasets of image-text pairs and have been designed to perform downstream tasks involving only small to medium sized-images, neither of which are applicable to the emerging field of computational pathology where there are limited publicly available paired image-text datasets and each image can span up to 100,000 x 100,000 pixels. In this paper we present MI-Zero, a simple and intuitive framework for unleashing the zero-shot transfer capabilities of contrastively aligned image and text models on gigapixel histopathology whole slide images, enabling multiple downstream diagnostic tasks to be carried out by pretrained encoders without requiring any additional labels. MI-Zero reformulates zero-shot transfer under the framework of multiple instance learning to overcome the computational challenge of inference on extremely large images. We used over 550k pathology reports and other available in-domain text corpora to pre-train our text encoder. By effectively leveraging strong pre-trained encoders, our best model pretrained on over 33k histopathology image-caption pairs achieves an average median zero-shot accuracy of 70.2% across three different real-world cancer subtyping tasks. Our code is available at: https://github.com/mahmoodlab/MI-Zero.

연구 동기 및 목표

  • 제로샷 전이를 위한 병리학의 대규모 이미지-텍스트 쌍 데이터 부족 문제를 해결한다.
  • 기가픽셀 WSIs에서 작동하도록 대조적으로 정렬된 이미지-텍스트 인코더를 활용한다.
  • 다중 인스턴스 학습 프레임워크를 통해 제로샷 WSI 분류를 공식화한다.
  • 도메인 내 텍스트 데이터를 사용하여 여러 암 하위타입 작업에서 성능을 입증한다.

제안 방법

  • 550k개가 넘는 병리 보고서와 PubMed 초록을 대상으로 도메인 특화 텍스트 인코더(HistPathGPT)를 사전 학습한다.
  • 550k개가 넘는 병리 보고서와 PubMed 초록을 대상으로 도메인 특화 텍스트 인코더(HistPathGPT)를 사전 학습한다.
  • 히스토패토로지 패치를 사전 학습한 최첨단 히스토패토로지 이미지 인코더(CTP) 또는 대안을 사용한다.
  • 512차원 잠재공간에서 i2t 및 t2i 방향의 교차 모달 대조 손실로 이미지와 텍스트 임베딩을 정렬한다.
  • WSI를 패치(인스턴스)로 분할하고 패치 임베딩을 계산한 다음 프롬프트 임베딩과의 코사인 유사도로 클래스 스코어를 계산한다.
  • 순열 불변 풀링(평균 또는 topK) 또는 공간적으로 스무딩된 그래프 기반 풀링을 사용하여 패치 점수를 집계해 슬라이드 수준 예측을 얻는다.
  • 제로샷 분류를 위해 각 클래스에 대한 프롬프트 기반 텍스트 임베딩을 사용하고 풀링된 이미지-텍스트 유사성으로 최적의 것을 선택한다.

실험 결과

연구 질문

  • RQ1제로샷 전이를 MIL 기반 집계로 기가픽셀 histopathology WSIs에 효과적으로 적용할 수 있는가?
  • RQ2도메인 특화 텍스트 사전 학습(HistPathGPT)이 비도메인 텍스트 모델보다 제로샷 WSI 분류를 개선하는가?
  • RQ3풀링 전략(평균 vs TopK) 및 공간적 스무딩이 제로샷 WSI 성능에 미치는 영향은 무엇인가?
  • RQ4BRCA, NSCLC, RCC 하위타스크에서 사전 학습 데이터 규모와 모달리티 매칭이 제로샷 정확도에 어떤 영향을 미치는가?

주요 결과

모델텍스트 인코더 및 사전학습SS풀링BRCANSCLCRCC평균
ABMIL (1% Data)Noneattention0.5100.7090.5570.592
ABMIL (100% Data)Noneattention0.8430.8930.8550.864
MI-Zero (Ours)HistPathGPT (None)topK0.6250.6800.6530.653
HistPathGPT (In-domain)topK0.6730.7000.7330.702
PubMedBert (Out-of-domain)topK0.5700.6930.7770.680
BioclinicalBert (Out-of-domain)topK0.6600.7420.6970.700
MI-Zero (Ours)HistPathGPT (None)topK0.6230.7000.6530.659
HistPathGPT (In-domain)topK0.6150.7050.7330.684
PubMedBert (Out-of-domain)topK0.5770.7250.7600.688
BioclinicalBert (Out-of-domain)topK0.6600.7700.6630.698
MI-Zero (Ours)HistPathGPT (None)mean0.6550.5930.5770.608
HistPathGPT (In-domain)mean0.6200.5900.6330.614
PubMedBert (Out-of-domain)mean0.5850.6500.7270.654
BioclinicalBert (Out-of-domain)mean0.6720.6800.5430.632
  • HistPathGPT 도메인 내 텍스트 데이터와 함께 MI-Zero가 세 가지 하위타스크에서 평균 70.2% 정확도를 달성한다.
  • TopK 풀링은 일반적으로 제로샷 WSI 분류에서 평균 풀링보다 성능이 좋다.
  • 도메인 내 텍스트 사전 학습은 여러 구성에서 비도메인 또는 처음부터 학습한 텍스트 모델 대비 성능을 향상시킨다.
  • CTP 이미지 인코더와 텍스트 인코더를 사전 학습시키면 표 1 구성에서 최상의 전반적 성능을 얻을 수 있다.
  • 1% 표본 라벨 데이터로도 경쟁적인 제로샷 방법이 일부 작업에서 감독 하의 기준에 근접한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.