Skip to main content
QUICK REVIEW

[論文レビュー] MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis

Asma Alkhaldi, Raneem Alnajim|arXiv (Cornell University)|Jul 4, 2024
Radiomics and Machine Learning in Medical Imaging被引用数 5
ひとこと要約

MiniGPT-Med は frozen 비전 인코더(EVA) と線形投影層を持つ LLM(LLaMA-2) 上に構築されたビジョン-言語モデルで、X線撮影、CT、MRI に跨る医療レポート生成、疾病検出、医療 VQA を実現し、医療レポート生成で最先端の結果を達成し、 grounding および non-grounding タスクの双方で高い性能を示します。

ABSTRACT

Recent advancements in artificial intelligence (AI) have precipitated significant breakthroughs in healthcare, particularly in refining diagnostic procedures. However, previous studies have often been constrained to limited functionalities. This study introduces MiniGPT-Med, a vision-language model derived from large-scale language models and tailored for medical applications. MiniGPT-Med demonstrates remarkable versatility across various imaging modalities, including X-rays, CT scans, and MRIs, enhancing its utility. The model is capable of performing tasks such as medical report generation, visual question answering (VQA), and disease identification within medical imagery. Its integrated processing of both image and textual clinical data markedly improves diagnostic accuracy. Our empirical assessments confirm MiniGPT-Med's superior performance in disease grounding, medical report generation, and VQA benchmarks, representing a significant step towards reducing the gap in assisting radiology practice. Furthermore, it achieves state-of-the-art performance on medical report generation, higher than the previous best model by 19\% accuracy. MiniGPT-Med promises to become a general interface for radiology diagnoses, enhancing diagnostic efficiency across a wide range of medical imaging applications.

研究の動機と目的

  • grounding および non-grounding タスクを扱える多用途な放射線科フォーカスのモ multimodal モデルの必要性を動機づける。
  • 医療ビジョン-言語タスクの universal interface として LLM を活用する統一アーキテクチャを提案する。
  • 医療レポート生成での最先端性能と疾病検出および VQA での競争力のある結果を示す。
  • X 線、CT、MRI への適用性と詳細な臨床レポート生成能力を示す。

提案手法

  • E VA を凍結した視覚バックボーンとして放射線画像特徴を抽出する。
  • 視覚トークンを LLaMA-2 空間にマッピングする線形投影層を備えた MiniGPT-v2 アーキテクチャを採用する。
  • [INST] トークンと6つのタスク識別子を用いたタスク固有のプロンプトを組み込み、 grounding および non-grounding タスクを誘導する。
  • grounding バウンディングボックスを正規化座標 [0,100] の形でテキスト表現し、LLM との連携を図る。
  • vision encoder を凍結したまま LoRA で LLaMA-2 を微調整する。
  • クロスエントロピー損失を用い、AdamW 最適化子で 100 エポック、 augmentation なし、124,276 枚の医用画像 (448x448) 上で訓練する。
Figure 1: The diverse capabilities by MiniGPT-Med. It can perform disease detection, medical visual question answering, and medical report generation. MiniGPT-Med effectively works with a wide range of radiological data (X-rays, CT scans, and MRIs) and is adept at diagnosing many diseases.
Figure 1: The diverse capabilities by MiniGPT-Med. It can perform disease detection, medical visual question answering, and medical report generation. MiniGPT-Med effectively works with a wide range of radiological data (X-rays, CT scans, and MRIs) and is adept at diagnosing many diseases.

実験結果

リサーチクエスチョン

  • RQ1 一つの統一モデルが diverse 放射線 modalities における医療レポート生成、疾病検出、医療 VQA を実行できるか。
  • RQ2 視覚データと臨床データを統一LLM インターフェースで統合することは、専門的または一般的なベースラインと比較して診断精度と grounding 能力を向上させるか。
  • RQ3 このアーキテクチャで MIMIC-CXR における医療レポート生成の最先端性能はどの程度達成可能か。
  • RQ4 外部の放射線 benchmarks でゼロショットの疾病検出と VQA がどの程度一般化するか。

主な発見

モデルのタイプMIMIC-CXR BERT-SimCheXbert-Sim
Ours (MiniGPT-Med)72.030.1
  • MiniGPT-Med は MIMIC-CXR における医療レポート生成で最先端の性能を達成し、BERT-Sim での最高ベースラインを 19.0%、CheXbert-Sim で 5.2% 上回る。
  • RSNA における疾病 grounding の IoU は 0.26 で競争力があり、専門モデルに近い。
  • 医療 VQA では RadVQA で 0.58 を達成し、 MiniGPT-v2 や OpenFlamingo のような一般モデルを上回り、専門モデル MedVIN に近づく (0.62)。
  • 放射線科の専門家評価では、生成レポートの 76% が高品質と判断され、19% が中程度、5% が低品質。
  • レポート生成、疾病検出、VQA の各領域で、 MiniGPT-Med は専門家ベースラインおよび汎用ベースラインの双方に対して強力な性能を示し、 grounding および non-grounding タスクの処理が効果的であることを示している。
Figure 2: MiniGPT-Med Architecture Overview: The architecture comprises a vision encoder, a linear projection layer, and a large language model. It processes a single medical image, transforming it into visual semantic features via a pre-trained vision encoder. These features are concatenated into a
Figure 2: MiniGPT-Med Architecture Overview: The architecture comprises a vision encoder, a linear projection layer, and a large language model. It processes a single medical image, transforming it into visual semantic features via a pre-trained vision encoder. These features are concatenated into a

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。