Skip to main content
QUICK REVIEW

[논문 리뷰] Contrastive Learning of Medical Visual Representations from Paired Images and Text

Yuhao Zhang, Hang Jiang|arXiv (Cornell University)|2020. 10. 02.
Multimodal Machine Learning Applications참고 문헌 38인용 수 278
한 줄 요약

ConVIRT는 paired reports에서 양방향 이미지-텍스트 대조 학습으로 의료 이미지 인코더를 사전 학습시켜, ImageNet 및 기타 베이스라인에 비해 도메인 내 표현력과 데이터 효율성이 우수하다.

ABSTRACT

Learning visual representations of medical images (e.g., X-rays) is core to medical image understanding but its progress has been held back by the scarcity of human annotations. Existing work commonly relies on fine-tuning weights transferred from ImageNet pretraining, which is suboptimal due to drastically different image characteristics, or rule-based label extraction from the textual report data paired with medical images, which is inaccurate and hard to generalize. Meanwhile, several recent studies show exciting results from unsupervised contrastive learning from natural images, but we find these methods help little on medical images because of their high inter-class similarity. We propose ConVIRT, an alternative unsupervised strategy to learn medical visual representations by exploiting naturally occurring paired descriptive text. Our new method of pretraining medical image encoders with the paired text data via a bidirectional contrastive objective between the two modalities is domain-agnostic, and requires no additional expert input. We test ConVIRT by transferring our pretrained weights to 4 medical image classification tasks and 2 zero-shot retrieval tasks, and show that it leads to image representations that considerably outperform strong baselines in most settings. Notably, in all 4 classification tasks, our method requires only 10\% as much labeled training data as an ImageNet initialized counterpart to achieve better or comparable performance, demonstrating superior data efficiency.

연구 동기 및 목표

  • 의료 분야의 한정된 주석 데이터로 고품질 의료 영상 표현 학습의 동기를 부여한다.
  • 자연적으로 쌍을 이루는 의료 영상과 설명 보고서를 활용하여 추가 전문가 라벨링 없이 시각 인코더를 개선한다.
  • ConVIRT 사전 학습 인코더의 다양한 의료 영상 태스크 및 검색 설정으로의 전이 가능성을 평가한다.

제안 방법

  • 모달리티별 인코더와 프로젝션 헤드를 통해 이미지와 텍스트를 d-차원 벡터로 표현한다.
  • 이미지에서 텍스트로, 텍스트에서 이미지로의 두 비대칭 손실을 포함하는 양방향 대조 목표를 가중 합으로 결합하여 사용한다.
  • 대조 학습을 위한 다양한 양성 쌍을 만들기 위해 임의의 이미지 뷰와 텍스트 구절을 샘플링한다.
  • MIMIC-CXR의 짝 데이터와 근골격계 데이터세트로 이미지 인코더(ResNet50)와 텍스트 인코더(임상BERT 기반 ClinicalBERT)를 사전 학습시킨다.
  • 의료 영상에 적합한 데이터 증강(자르기, 뒤집기, 어파인 변환, 색조 변화, 가우시안 흐림)과 문장 수준 텍스트 샘플링을 적용한다.
  • 네 가지 의료 분류 과제에서 선형 분류 및 미세 조정을 통해 사전 학습된 인코더를 평가하고, 제로샷 이미지-이미지 및 텍스트-이미지 검색을 수행한다.

실험 결과

연구 질문

  • RQ1의료 이미지와 paired descriptive text 간의 교차 모달 대조 학습이 이미지 전용 초기화나 무작위 초기화보다 더 나은 시각 표현을 얻을 수 있는가?
  • RQ2ConVIRT가 데이터 효율성을 개선하여 ImageNet으로 사전 학습된 모델에 비해 훨씬 적은 라벨 데이터로도 경쟁 성능을 달성하는가?
  • RQ3ConVIRT 표현이 다양한 의료 영상 작업 및 제로샷 검색 설정으로 얼마나 잘 전이되는가?

주요 결과

  • ConVIRT는 네 가지 분류 태스크에서 선형 및 미세 조정 설정 모두에서 무작위, ImageNet 및 도메인 내 베이스라인을 일반적으로 능가한다.
  • 4개 태스크 중 3개에서, 라벨 데이터가 1%뿐인 상황에서도 ConVIRT는 100% 데이터의 ImageNet 초기화에 필적하거나 이를 상회한다.
  • 제로샷 검색에서 ConVIRT는 이미지-이미지 및 텍스트-이미지 태스크 전반에서 최상의 Precision@k를 달성한다.
  • 이미지 전용 대조 방법(SimCLR, MoCo v2)과 비교할 때, ConVIRT는 짝지어진 텍스트를 활용하여 상당한 이점을 제공한다.
  • 주목도 분석은 ConVIRT가 ImageNet 또는 다른 베이스라인보다 더 관련 해부학 영역에 주력하는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.