[논문 리뷰] M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models
본 논문은 대규모 3D 의학 멀티모달 데이터셋 M3D-Data를 구축하고, 다용도 3D MLLM인 M3D-LaMed를 도입하며, 8개 과제용 M3D-Bench를 제안하여 3D 이미지-텍스트 검색, 보고서 생성, VQA, 위치 추정 및 세분화에서 강한 성능을 달성한다.
Medical image analysis is essential to clinical diagnosis and treatment, which is increasingly supported by multi-modal large language models (MLLMs). However, previous research has primarily focused on 2D medical images, leaving 3D images under-explored, despite their richer spatial information. This paper aims to advance 3D medical image analysis with MLLMs. To this end, we present a large-scale 3D multi-modal medical dataset, M3D-Data, comprising 120K image-text pairs and 662K instruction-response pairs specifically tailored for various 3D medical tasks, such as image-text retrieval, report generation, visual question answering, positioning, and segmentation. Additionally, we propose M3D-LaMed, a versatile multi-modal large language model for 3D medical image analysis. Furthermore, we introduce a new 3D multi-modal medical benchmark, M3D-Bench, which facilitates automatic evaluation across eight tasks. Through comprehensive evaluation, our method proves to be a robust model for 3D medical image analysis, outperforming existing solutions. All code, data, and models are publicly available at: https://github.com/BAAI-DCAI/M3D.
연구 동기 및 목표
- 다중 모달 대형 언어 모델(MLLMs)로 3D 의학 이미지 분석의 진전을 촉진한다.
- 강력한 다중 모달 작업을 가능하게 하는 대규모 3D 의학 데이터셋과 대응 벤치마크를 구축한다.
- 검색, 보고서 생성, VQA, 위치 추정 및 세분화를 모두 수행할 수 있는 다용도 3D MLLM을 개발한다.
- LLM 기반 벤치마크를 통한 자동 평가를 가능하게 한다.
제안 방법
- M3D-Cap에서 CLIP 유사한 교차 모달 손실로 처음부터 3D 비전 인코더를 사전 학습한다.
- 3D 공간 풀링 페시버를 도입하여 토큰 수를 줄이고 LLM과 임베딩을 정렬한다.
- 3D 페시버를 통해 엔드 투 엔드 미세조정으로 사전 학습된 LLaMA-2-7B LLM을 통합한다.
- 3D 비전-언어 세분화를 가능하게 하는 프롬터블 세분화 모듈(SegVol)을 도입한다.
- LLM의 매개 변수 효율적 미세조정을 위해 LoRA를 활용하여 사전 지식 보존을 달성한다.
- 이미지-텍스트 검색, 보고서 생성, VQA, 위치 추정 및 세분화를 포함한 여덟 가지 과제를 M3D-Bench를 통해 평가한다.

실험 결과
연구 질문
- RQ13D 비전 인코더와 3D 페시버를 갖춘 다중 모달 LLM으로 3D 의학 이미지를 효과적으로 분석할 수 있는가?
- RQ2대규모 3D 의학 멀티모달 데이터셋(M3D-Data)이 다양한 작업(검색, RG, VQA, 위치 추정, 세분화)을 어떻게 지원하는가?
- RQ3여덟 가지 과제에서 기존 베이스라인과 비교하여 M3D-LaMed의 성능은 어떠한가?
- RQ4프롬프트 가능한 세분화 모듈이 3D 의학 영상에서 지칭 표현 세분화를 가능하게 하는가?
- RQ5LLMS를 3D 과제에 대해 LLM 기반 벤치마크(M3D-Bench)로 자동 평가할 수 있는가?
주요 결과
| Methods | Test samples | IR R@1 | IR R@5 | IR R@10 | TR R@1 | TR R@5 | TR R@10 |
|---|---|---|---|---|---|---|---|
| PMC-CLIP | 100 | 9.00 | 28.00 | 45.00 | 18.00 | 47.00 | 59.00 |
| PMC-CLIP | 500 | 4.40 | 12.80 | 18.80 | 7.60 | 20.20 | 31.00 |
| PMC-CLIP | 1000 | 1.90 | 7.60 | 12.10 | 4.60 | 13.00 | 19.80 |
| PMC-CLIP | 2000 | 1.15 | 4.35 | 7.60 | 3.15 | 8.55 | 13.55 |
| Our | 100 | 64.00 | 95.00 | 99.00 | 70.00 | 95.00 | 98.00 |
| Our | 500 | 39.60 | 76.20 | 87.20 | 40.40 | 74.20 | 87.00 |
| Our | 1000 | 27.30 | 61.10 | 76.10 | 26.60 | 61.80 | 75.30 |
| Our | 2000 | 19.10 | 47.45 | 62.25 | 18.45 | 47.30 | 62.15 |
- M3D-Data는 120K 3D 이미지-텍스트 페어와 662K 지시-응답 페어를 포함하여 8개 과제를 지원한다.
- M3D-LaMed는 검색, VQA, 위치 추정 및 세분화를 포함한 다양한 과제에서 기존의 3D MLLMs보다 우수하다.
- 3D 이미지-텍스트 검색은 모든 테스트 설정에서 2D 기준선(PMC-CLIP) 대비 상당한 이득을 보이며 IR 및 TR 지표에서 큰 개선을 나타낸다.
- 보고서 생성은 RadFM과 비교해 BLEU, ROUGE, METEOR, BERT-Score 및 LLN 기반 평가에서 더 높은 성능을 보였다.
- VQA(폐쇄형 및 개방형) 및 위치 추정 과제에서 강한 이득을 보이며, 시야 사전 학습, 공간 풀링, MLP 설계 및 해제된 비전 인코더의 중요성이 강조된다.
- 세분화 과제(semantic 및 referring expression)은 기존 방법을 능가하며 3D에서 지칭 표현 세분화를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.