QUICK REVIEW

[논문 리뷰] M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models

Fan Bai, Yuxin Du|arXiv (Cornell University)|2024. 03. 31.

Medical Imaging and Analysis인용 수 15

한 줄 요약

본 논문은 대규모 3D 의학 멀티모달 데이터셋 M3D-Data를 구축하고, 다용도 3D MLLM인 M3D-LaMed를 도입하며, 8개 과제용 M3D-Bench를 제안하여 3D 이미지-텍스트 검색, 보고서 생성, VQA, 위치 추정 및 세분화에서 강한 성능을 달성한다.

ABSTRACT

Medical image analysis is essential to clinical diagnosis and treatment, which is increasingly supported by multi-modal large language models (MLLMs). However, previous research has primarily focused on 2D medical images, leaving 3D images under-explored, despite their richer spatial information. This paper aims to advance 3D medical image analysis with MLLMs. To this end, we present a large-scale 3D multi-modal medical dataset, M3D-Data, comprising 120K image-text pairs and 662K instruction-response pairs specifically tailored for various 3D medical tasks, such as image-text retrieval, report generation, visual question answering, positioning, and segmentation. Additionally, we propose M3D-LaMed, a versatile multi-modal large language model for 3D medical image analysis. Furthermore, we introduce a new 3D multi-modal medical benchmark, M3D-Bench, which facilitates automatic evaluation across eight tasks. Through comprehensive evaluation, our method proves to be a robust model for 3D medical image analysis, outperforming existing solutions. All code, data, and models are publicly available at: https://github.com/BAAI-DCAI/M3D.

연구 동기 및 목표

다중 모달 대형 언어 모델(MLLMs)로 3D 의학 이미지 분석의 진전을 촉진한다.
강력한 다중 모달 작업을 가능하게 하는 대규모 3D 의학 데이터셋과 대응 벤치마크를 구축한다.
검색, 보고서 생성, VQA, 위치 추정 및 세분화를 모두 수행할 수 있는 다용도 3D MLLM을 개발한다.
LLM 기반 벤치마크를 통한 자동 평가를 가능하게 한다.

제안 방법

M3D-Cap에서 CLIP 유사한 교차 모달 손실로 처음부터 3D 비전 인코더를 사전 학습한다.
3D 공간 풀링 페시버를 도입하여 토큰 수를 줄이고 LLM과 임베딩을 정렬한다.
3D 페시버를 통해 엔드 투 엔드 미세조정으로 사전 학습된 LLaMA-2-7B LLM을 통합한다.
3D 비전-언어 세분화를 가능하게 하는 프롬터블 세분화 모듈(SegVol)을 도입한다.
LLM의 매개 변수 효율적 미세조정을 위해 LoRA를 활용하여 사전 지식 보존을 달성한다.
이미지-텍스트 검색, 보고서 생성, VQA, 위치 추정 및 세분화를 포함한 여덟 가지 과제를 M3D-Bench를 통해 평가한다.

Figure 1 : The generation pipelines for M3D-Data. (a) In the VQA data generation pipeline, we employ LLM to generate five types of questions from medical reports using a prompt-based method. Subsequently, we eliminate dirty data through self-filtering and check the test set by LLM and experts, achie

실험 결과

연구 질문

RQ13D 비전 인코더와 3D 페시버를 갖춘 다중 모달 LLM으로 3D 의학 이미지를 효과적으로 분석할 수 있는가?
RQ2대규모 3D 의학 멀티모달 데이터셋(M3D-Data)이 다양한 작업(검색, RG, VQA, 위치 추정, 세분화)을 어떻게 지원하는가?
RQ3여덟 가지 과제에서 기존 베이스라인과 비교하여 M3D-LaMed의 성능은 어떠한가?
RQ4프롬프트 가능한 세분화 모듈이 3D 의학 영상에서 지칭 표현 세분화를 가능하게 하는가?
RQ5LLMS를 3D 과제에 대해 LLM 기반 벤치마크(M3D-Bench)로 자동 평가할 수 있는가?

주요 결과

Methods	Test samples	IR R@1	IR R@5	IR R@10	TR R@1	TR R@5	TR R@10
PMC-CLIP	100	9.00	28.00	45.00	18.00	47.00	59.00
PMC-CLIP	500	4.40	12.80	18.80	7.60	20.20	31.00
PMC-CLIP	1000	1.90	7.60	12.10	4.60	13.00	19.80
PMC-CLIP	2000	1.15	4.35	7.60	3.15	8.55	13.55
Our	100	64.00	95.00	99.00	70.00	95.00	98.00
Our	500	39.60	76.20	87.20	40.40	74.20	87.00
Our	1000	27.30	61.10	76.10	26.60	61.80	75.30
Our	2000	19.10	47.45	62.25	18.45	47.30	62.15

M3D-Data는 120K 3D 이미지-텍스트 페어와 662K 지시-응답 페어를 포함하여 8개 과제를 지원한다.
M3D-LaMed는 검색, VQA, 위치 추정 및 세분화를 포함한 다양한 과제에서 기존의 3D MLLMs보다 우수하다.
3D 이미지-텍스트 검색은 모든 테스트 설정에서 2D 기준선(PMC-CLIP) 대비 상당한 이득을 보이며 IR 및 TR 지표에서 큰 개선을 나타낸다.
보고서 생성은 RadFM과 비교해 BLEU, ROUGE, METEOR, BERT-Score 및 LLN 기반 평가에서 더 높은 성능을 보였다.
VQA(폐쇄형 및 개방형) 및 위치 추정 과제에서 강한 이득을 보이며, 시야 사전 학습, 공간 풀링, MLP 설계 및 해제된 비전 인코더의 중요성이 강조된다.
세분화 과제(semantic 및 referring expression)은 기존 방법을 능가하며 3D에서 지칭 표현 세분화를 가능하게 한다.

Figure 2 : The data statistics of M3D-VQA on five question types. What, which, and where are 3 typical questions. Samples of 5 topics are displayed in word clouds.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.