QUICK REVIEW

[논문 리뷰] Self-Supervision Closes the Gap Between Weak and Strong Supervision in Histology

Olivier Dehaene, Axel Camara|arXiv (Cornell University)|2020. 12. 07.

Advances in Oncology and Radiotherapy참고 문헌 33인용 수 49

한 줄 요약

이 논문은 in-domain 자기지도 기반 특징 추출기(MoCo v2)를 히스토로지 타일에서 학습시켜 ImageNet 피처를 대체하고, 약지도 학습 히스토로지 성능을 크게 향상시키며 Camelyon16에서 강한 지도 대비 격차를 좁힌다.

ABSTRACT

One of the biggest challenges for applying machine learning to histopathology is weak supervision: whole-slide images have billions of pixels yet often only one global label. The state of the art therefore relies on strongly-supervised model training using additional local annotations from domain experts. However, in the absence of detailed annotations, most weakly-supervised approaches depend on a frozen feature extractor pre-trained on ImageNet. We identify this as a key weakness and propose to train an in-domain feature extractor on histology images using MoCo v2, a recent self-supervised learning algorithm. Experimental results on Camelyon16 and TCGA show that the proposed extractor greatly outperforms its ImageNet counterpart. In particular, our results improve the weakly-supervised state of the art on Camelyon16 from 91.4% to 98.7% AUC, thereby closing the gap with strongly-supervised models that reach 99.3% AUC. Through these experiments, we demonstrate that feature extractors trained via self-supervised learning can act as drop-in replacements to significantly improve existing machine learning techniques in histology. Lastly, we show that the learned embedding space exhibits biologically meaningful separation of tissue structures.

연구 동기 및 목표

슬라이드 레벨 라벨링만으로 인해 히스토로지에서 약한 감독을 필요로 한다는 점을 동기화한다; ImageNet 사전 학습을 주요 약점으로 지목한다; MoCo v2를 사용한 도메인 내 자기지도 사전 학습을 제안한다; Camelyon16 및 TCGA-COAD에서 성능 향상을 입증한다; 학습된 임베딩의 생물학적 의미와 전이 가능성을 보여준다.

제안 방법

Fixed한 확대 수준에서 전체 슬라이드 이미지를 타일 크기로 잘라고르다; 고정된 인코더를 이용해 타일 특징을 추출한다; 다중 인스턴스 학습(MIL)을 적용해 타일 정보를 슬라이드 레이블로 집계한다; 라벨이 없는 조직학 타일에서 대조 손실을 사용한 MoCo v2를 도메인 내에서 사전 학습시키고, 조직학 데이터에 적합한 회전 및 뒤집기로 MoCo v2를 확장한다; 세 가지 MIL 아키텍처(Weldon, Chowder, DeepMIL)에 걸쳐 평가하고 두 데이터셋에서 비교한다; ImageNet 사전 학습과 비교하여 AUC 개선을 보고한다.

실험 결과

연구 질문

RQ1MoCo v2를 이용한 도메인 내 자기지도 사전 학습이 ImageNet으로 사전 학습된 피처에 비해 약지도 히스토로지 모델을 개선할 수 있는가?
RQ2개선이 다양한 MIL 아키텍처와 데이터셋(Camelyon16 및 TCGA-COAD)에서 일반화되는가?
RQ3자기지도 도메인 내 피처로 약지도 성능이 강한 감독 기준에 얼마나 근접할 수 있는가?
RQ4학습된 임베딩이 생물학적으로 의미 있는 클러스터링을 보이고 기관/종양 유형 간 전달 학습을 지원하는가?

주요 결과

MoCo v2 도메인 내 피처가 MIL 모델 전반의 약지도 히스토로지 결과를 크게 향상시킨다.
Camelyon16에서 약지도 성능은 98.7% AUC에 도달해 강한 감독 모델의 99.3% AUC에 근접한다.
MoCo v2 피처를 사용하면 표준 편차가 크게 감소해 (이미지넷 피처 대비) 훨씬 더 견고한 성능을 보인다.
TCGA-COAD CMS 분류에서 MoCo v2 피처는 ImageNet 대비 큰 AUC 향상을 보여주고 주석 및 앙상블을 사용하는 최첨단 방법과 비슷한 성과를 낸다.
TCGA-COAD에서 Camelyon16으로 MoCo v2 피처를 전이한 결과(그 반대도)가 강한 교차 데이터셋 성능을 보여 학습 표현의 전이 가능성을 부각시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.