Skip to main content
QUICK REVIEW

[논문 리뷰] M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models

Fan Bai, Yuxin Du|arXiv (Cornell University)|2024. 03. 31.
Medical Imaging and Analysis인용 수 15
한 줄 요약

본 논문은 대규모 3D 의학 멀티모달 데이터셋 M3D-Data를 구축하고, 다용도 3D MLLM인 M3D-LaMed를 도입하며, 8개 과제용 M3D-Bench를 제안하여 3D 이미지-텍스트 검색, 보고서 생성, VQA, 위치 추정 및 세분화에서 강한 성능을 달성한다.

ABSTRACT

Medical image analysis is essential to clinical diagnosis and treatment, which is increasingly supported by multi-modal large language models (MLLMs). However, previous research has primarily focused on 2D medical images, leaving 3D images under-explored, despite their richer spatial information. This paper aims to advance 3D medical image analysis with MLLMs. To this end, we present a large-scale 3D multi-modal medical dataset, M3D-Data, comprising 120K image-text pairs and 662K instruction-response pairs specifically tailored for various 3D medical tasks, such as image-text retrieval, report generation, visual question answering, positioning, and segmentation. Additionally, we propose M3D-LaMed, a versatile multi-modal large language model for 3D medical image analysis. Furthermore, we introduce a new 3D multi-modal medical benchmark, M3D-Bench, which facilitates automatic evaluation across eight tasks. Through comprehensive evaluation, our method proves to be a robust model for 3D medical image analysis, outperforming existing solutions. All code, data, and models are publicly available at: https://github.com/BAAI-DCAI/M3D.

연구 동기 및 목표

  • 다중 모달 대형 언어 모델(MLLMs)로 3D 의학 이미지 분석의 진전을 촉진한다.
  • 강력한 다중 모달 작업을 가능하게 하는 대규모 3D 의학 데이터셋과 대응 벤치마크를 구축한다.
  • 검색, 보고서 생성, VQA, 위치 추정 및 세분화를 모두 수행할 수 있는 다용도 3D MLLM을 개발한다.
  • LLM 기반 벤치마크를 통한 자동 평가를 가능하게 한다.

제안 방법

  • M3D-Cap에서 CLIP 유사한 교차 모달 손실로 처음부터 3D 비전 인코더를 사전 학습한다.
  • 3D 공간 풀링 페시버를 도입하여 토큰 수를 줄이고 LLM과 임베딩을 정렬한다.
  • 3D 페시버를 통해 엔드 투 엔드 미세조정으로 사전 학습된 LLaMA-2-7B LLM을 통합한다.
  • 3D 비전-언어 세분화를 가능하게 하는 프롬터블 세분화 모듈(SegVol)을 도입한다.
  • LLM의 매개 변수 효율적 미세조정을 위해 LoRA를 활용하여 사전 지식 보존을 달성한다.
  • 이미지-텍스트 검색, 보고서 생성, VQA, 위치 추정 및 세분화를 포함한 여덟 가지 과제를 M3D-Bench를 통해 평가한다.
Figure 1 : The generation pipelines for M3D-Data. (a) In the VQA data generation pipeline, we employ LLM to generate five types of questions from medical reports using a prompt-based method. Subsequently, we eliminate dirty data through self-filtering and check the test set by LLM and experts, achie
Figure 1 : The generation pipelines for M3D-Data. (a) In the VQA data generation pipeline, we employ LLM to generate five types of questions from medical reports using a prompt-based method. Subsequently, we eliminate dirty data through self-filtering and check the test set by LLM and experts, achie

실험 결과

연구 질문

  • RQ13D 비전 인코더와 3D 페시버를 갖춘 다중 모달 LLM으로 3D 의학 이미지를 효과적으로 분석할 수 있는가?
  • RQ2대규모 3D 의학 멀티모달 데이터셋(M3D-Data)이 다양한 작업(검색, RG, VQA, 위치 추정, 세분화)을 어떻게 지원하는가?
  • RQ3여덟 가지 과제에서 기존 베이스라인과 비교하여 M3D-LaMed의 성능은 어떠한가?
  • RQ4프롬프트 가능한 세분화 모듈이 3D 의학 영상에서 지칭 표현 세분화를 가능하게 하는가?
  • RQ5LLMS를 3D 과제에 대해 LLM 기반 벤치마크(M3D-Bench)로 자동 평가할 수 있는가?

주요 결과

MethodsTest samplesIR R@1IR R@5IR R@10TR R@1TR R@5TR R@10
PMC-CLIP1009.0028.0045.0018.0047.0059.00
PMC-CLIP5004.4012.8018.807.6020.2031.00
PMC-CLIP10001.907.6012.104.6013.0019.80
PMC-CLIP20001.154.357.603.158.5513.55
Our10064.0095.0099.0070.0095.0098.00
Our50039.6076.2087.2040.4074.2087.00
Our100027.3061.1076.1026.6061.8075.30
Our200019.1047.4562.2518.4547.3062.15
  • M3D-Data는 120K 3D 이미지-텍스트 페어와 662K 지시-응답 페어를 포함하여 8개 과제를 지원한다.
  • M3D-LaMed는 검색, VQA, 위치 추정 및 세분화를 포함한 다양한 과제에서 기존의 3D MLLMs보다 우수하다.
  • 3D 이미지-텍스트 검색은 모든 테스트 설정에서 2D 기준선(PMC-CLIP) 대비 상당한 이득을 보이며 IR 및 TR 지표에서 큰 개선을 나타낸다.
  • 보고서 생성은 RadFM과 비교해 BLEU, ROUGE, METEOR, BERT-Score 및 LLN 기반 평가에서 더 높은 성능을 보였다.
  • VQA(폐쇄형 및 개방형) 및 위치 추정 과제에서 강한 이득을 보이며, 시야 사전 학습, 공간 풀링, MLP 설계 및 해제된 비전 인코더의 중요성이 강조된다.
  • 세분화 과제(semantic 및 referring expression)은 기존 방법을 능가하며 3D에서 지칭 표현 세분화를 가능하게 한다.
Figure 2 : The data statistics of M3D-VQA on five question types. What, which, and where are 3 typical questions. Samples of 5 topics are displayed in word clouds.
Figure 2 : The data statistics of M3D-VQA on five question types. What, which, and where are 3 typical questions. Samples of 5 topics are displayed in word clouds.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.