QUICK REVIEW

[논문 리뷰] MedBLIP: Bootstrapping Language-Image Pre-training from 3D Medical Images and Texts

Qiuhui Chen, Xinyue Hu|arXiv (Cornell University)|2023. 05. 18.

Multimodal Machine Learning Applications인용 수 8

한 줄 요약

MedBLIP은 고정된 2D 비전 인코더와 고정된 LLM으로부터 부트스트랩하여 3D 의학 이미지를 EHR 텍스트와 융합하고 제로샷 AD/MCI 분류 및 의료 VQA를 가능하게 하는 경량 비전-언어 CAD 시스템이다.

ABSTRACT

Vision-language pre-training (VLP) models have been demonstrated to be effective in many computer vision applications. In this paper, we consider developing a VLP model in the medical domain for making computer-aided diagnoses (CAD) based on image scans and text descriptions in electronic health records, as done in practice. To achieve our goal, we present a lightweight CAD system MedBLIP, a new paradigm for bootstrapping VLP from off-the-shelf frozen pre-trained image encoders and frozen large language models. We design a MedQFormer module to bridge the gap between 3D medical images and 2D pre-trained image encoders and language models as well. To evaluate the effectiveness of our MedBLIP, we collect more than 30,000 image volumes from five public Alzheimer's disease (AD) datasets, i.e., ADNI, NACC, OASIS, AIBL, and MIRIAD. On this largest AD dataset we know, our model achieves the SOTA performance on the zero-shot classification of healthy, mild cognitive impairment (MCI), and AD subjects, and shows its capability of making medical visual question answering (VQA). The code and pre-trained models is available online: https://github.com/Qybc/MedBLIP.

연구 동기 및 목표

3D 의학 이미지와 보완적인 EHR 텍스트의 융합을 통해 컴퓨터 지원 진단(CAD)을 촉진한다.
고정된 이미지 인코더와 고정된 대형 언어 모델(LLMs)을 사용하는 경량 VLP 프레임워크를 개발한다.
3D 뇌 MRI 부피와 2D 사전학습 인코더 및 LLM을 연결하는 MedQFormer를 도입한다.
단일 RTX 3090와 같은 최소 계산 자원으로 대규모 AD 데이터셋에서 제로샷 분류 및 의료 VQA를 입증한다.
다른 질병 및 모달리티로 확장될 수 있는 경량 다중모달 CAD 아키텍처의 강건성을 보여준다.

제안 방법

학습 가능한 패치 임베딩을 사용하여 3D MRI 부피를 고정된 2D 비전 인코더와 호환되는 1D 이미지 임베딩으로 변환한다.
교차 어텐션을 통해 시각 특징을 언어 모델의 잠재 공간에 맞추기 위해 학습 가능한 쿼리를 갖춘 MedQFormer를 도입한다.
VQA 설정에서 답을 생성하기 위해 시각 및 텍스트의 두 스트림 인코더와 언어 모델 디코더를 채택한다.
일반화 보존을 위해 기본 LM을 대체로 고정된 상태로 두고 LoRA(저랭크 어댑터)로 언어 모델을 미세조정한다.
이미지-텍스트 대조 손실로 모달리티를 정렬하고 생성용 LM 교차 엔트로피 손실로 학습한다.
대규모 다데이터세트의 알츠하이머 병용 모음집을 사용하여 AD/MCI 분류 및 의료 VQA의 제로샷 작업을 평가한다.

실험 결과

연구 질문

RQ1경량 다중모달 CAD 시스템이 3D 의학 이미지를 텍스트 EHR 설명과 융합하여 제로샷 진단을 수행할 수 있는가?
RQ2MedQFormer가 3D MRI 부피와 고정된 2D 비전 인코더를 효과적으로 연결하여 언어 모델과 정렬시키는가?
RQ3생물의학 LM의 LoRA 기반 미세조정이 경쟁력 있는 제로샷 AD/MCI 분류 및 VQA에 충분한가?
RQ4프롬프트 구조와 다중 모달 ITC 손실이 제로샷 CAD 성능에 어떤 영향을 미치는가?
RQ5ADNI/NACC/OASIS 데이터셋에서 2D 기본값 및 더 큰 비전 인코더 대비 MedBLIP의 성능은 어떠한가?

주요 결과

방법	LM	#학습가능	ADNI	NACC	OASIS	AIBL	MIRIAD
FLAN-T5 (Text 전용)	3.4B	-	-	37.0%	39.5%	46.7%	33.3%	60.0%
Ours w/ T5 (동결된)	151M	-	50.5%	69.2%	61.3%	54.7%	64.0%
LoRA	156M	-	64.0%	77.3%	75.8%	59.2%	66.8%
BioGPT (Text 전용)	1.5B	-	-	25.7%	21.7%	28.3%	26.7%	50.0%
Ours w/ BioGPT (Frozen)	151M	-	56.3%	66.5%	66.0%	60.7%	55.2%
LoRA	156M	-	62.2%	72.3%	71.7%	62.4%	59.7%
BioMedLM (Text 전용)	2.7B	-	-	62.5%	63.5%	61.8%	65.7%	46.3%
Ours w/ BioMedLM (Frozen)	151M	-	71.2%	82.0%	79.8%	77.8%	66.1%
LoRA	154M	-	78.7%	83.3%	85.3%	80.8%	71.0%

MedBLIP은 BioMedLM와 LoRA 미세조정을 사용할 때 여러 베이스라인을 능가하며 ADNI, NACC, OASIS, AIBL, 및 MIRIAD 데이터셋에서 강력한 제로샷 분류를 달성한다.
MedQFormer는 3D MRI와 고정된 2D 비전 인코더 사이의 가볍지만 효과적인 다리 역할을 하며 전체 ViT-G 인코더에 비해 비슷한 정확도이지만 매개변수는 훨씬 적다( ViT-G의 15.1%).
프롬프트 구조의 영향은 제한적이다; 일반 프롬프트가 일부 데이터셋에서 약간 더 나은 성능을 보이지만 차이는 미미하다.
이미지와 진단 Q&A 간의 두 번째 ITC 손실을 포함하면 모든 데이터셋에서 정확도가 향상된다.
모델 전반에 걸쳐 BioMedLM와 LoRA를 사용한 MedBLIP가 최상의 제로샷 CAD 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.