Skip to main content
QUICK REVIEW

[논문 리뷰] Exploring scalable medical image encoders beyond text supervision

Fernando Pérez‐García, Harshita Sharma|arXiv (Cornell University)|2024. 01. 19.
Artificial Intelligence in Healthcare and Education인용 수 8
한 줄 요약

이 논문은 DINOv2와 마스킹 이미지 모델링으로 학습된 이미지 전용 자기지도 biomedical 이미지 인코더(raddino)가 분류, 분할, 및 비전–언어 태스크에서 텍스트 기반 감독 모델과 대등하거나 우수하게 수행하며, 데이터 규모의 증가와 함께 성능이 향상되고 임상 정보와의 상관관계가 더 커짐을 보여준다.

ABSTRACT

Language-supervised pre-training has proven to be a valuable method for extracting semantically meaningful features from images, serving as a foundational element in multimodal systems within the computer vision and medical imaging domains. However, the computed features are limited by the information contained in the text, which is particularly problematic in medical imaging, where the findings described by radiologists focus on specific observations. This challenge is compounded by the scarcity of paired imaging-text data due to concerns over leakage of personal health information. In this work, we fundamentally challenge the prevailing reliance on language supervision for learning general-purpose biomedical imaging encoders. We introduce RAD-DINO, a biomedical image encoder pre-trained solely on unimodal biomedical imaging data that obtains similar or greater performance than state-of-the-art biomedical language-supervised models on a diverse range of benchmarks. Specifically, the quality of learned representations is evaluated on standard imaging tasks (classification and semantic segmentation), and a vision-language alignment task (text report generation from images). To further demonstrate the drawback of language supervision, we show that features from RAD-DINO correlate with other medical records (e.g., sex or age) better than language-supervised models, which are generally not mentioned in radiology reports. Finally, we conduct a series of ablations determining the factors in RAD-DINO's performance; notably, we observe that RAD-DINO's downstream performance scales well with the quantity and diversity of training data, demonstrating that image-only supervision is a scalable approach for training a foundational biomedical image encoder. Model weights of RAD-DINO trained on publicly available datasets are available at https://huggingface.co/microsoft/rad-dino.

연구 동기 및 목표

  • 이미지-텍스트 데이터의 한계와 PHI 관련 우려로 인해 생체 의학 이미지 인코더에서 언어 감독에 대한 의존도를 줄이려는 동기를 제시한다.
  • 전역 및 국소 특징 학습을 위한 DINOv2 및 마스킹 이미지 모델링(MIM)으로 학습된 이미지-전용 인코더인 raddino를 제안한다.
  • 단일 모달 및 다중 모달 능력을 검증하기 위해 이미지 분류, 의미 분할, 텍스트 리포트 생성에서 raddino를 평가한다.
  • 이미지-전용 표현이 언어 감독 모델보다 환자 인구통계 및 EHR 유사 정보와 더 강하게 상관관계가 있음을 보여준다.

제안 방법

  • 패치 수준 예측을 위한 마스크드 이미지 모델링(MIM)과 다중 크롭 뷰를 활용한 이미지 수준 대조 학습을 결합한 하이브리드 목표로 raddino를 DINOv2로 사전 학습한다.
  • DINOv2 ViT-B에서 시작하여 일반 도메인 가중치를 활용한 도메인 전이 실험과 함께 대규모 다양성 radiology 이미지 데이터셋(Multi-CXR)에서 추가 사전 학습을 수행한다.
  • 외부 CXR 데이터셋에서 선형 탐색(linear probing)을 사용하여 CLIP 변형, BiomedCLIP, BioViL-T, MRM 등 이미지-텍스트 및 다중 모달 기반 베이스라인과 비교한다.
  • 이미지 분류(VinDr-CXR, CANDID-PTX, RSNA Pneumonia), 의미 분할(CANDID-PTX, MIMIC-CXR 유도 데이터셋), 비전–언어 태스크(text report generation on MIMIC-CXR)에서 평가한다.
  • 입력 해상도, 가중치 초기화, 훈련 데이터 크기/다양성의 변화가 다운스트림 성능에 미치는 영향을 조사한다.

실험 결과

연구 질문

  • RQ1이미지-전용 자기지도 학습이 표준 이미지를 대상으로 하는 태스크에서 텍스트 감독된 생체 의학 인코더를 매칭하거나 능가할 수 있는가?
  • RQ2raddino가 훈련 데이터 양, 다양성, 그리고 더 높은 입력 해상도에 대해 전역 및 로컬(패치 수준) 태스크 모두에서 우호적으로 스케일링되는가?
  • RQ3이미지-전용 인코더가 언어-감독 상대 모델보다 환자 인구통계 및 비보고 임상 정보와 더 잘 정렬된 표현을 생성하는가?
  • RQ4MIM 및 도메인 전이 사전 학습이 분할 및 비전–언어 생성 성능에 미치는 영향은 무엇인가?
  • RQ5영상-텍스트 데이터에 의존하지 않는 순수 이미지 기반 사전 학습 접근 방식이 통합된 기초 생체 의학 이미지 인코더에 적합한가?

주요 결과

  • raddino는 이미지 분류 및 분할에 대한 다양한 생물의학 벤치마크에서 최첨단 언어 감독 모델과 동등하거나 이를 능가한다.
  • VinDr-CXR에서 raddino는 최고 Agg AUPRC(66.63)를 달성하고 발견에 걸쳐 CLIP 및 다른 베이스라인을 능가한다.
  • CANDID-PTX 및 RSNA Pneumonia에서 raddino는 강한 성과를 나타내며, 특히 PTX 관련 작업에서 기흉 및 흉관 튜브에서 뛰어나다.
  • 비전–언어 생성의 경우 raddino 기반 인코더가 ROUGE-L, BLEU-4, RG ER, Macro-F1-14 점에서 우수한 사실성 및 임상 정확도를 보여준다.
  • 변별 실험에서 더 크고 더 다양한 훈련 데이터와 더 높은 입력 해상도에서 성능이 스케일되며, 일반 도메인 모델로부터의 도메인 전이가 도움이 되나 인-도메인 사전 학습의 추가적인 이득이 있다.
  • raddino 인코딩은 인구통계 같은 더 넓은 임상 정보와 상관관계가 더 커서 언어 감독 모델보다 다중 모달 임상 태스크에 더 넓은 적용 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.