[論文レビュー] Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for Multimodal Medical Diagnosis
この研究は、17の体系と8つの画像モダリティにわたるGPT-4Vの多模式医療診断能力を評価し、モダリティ/解剖学の認識には強みを示すが、診断、報告、局在、複数画像推論には大きなギャップがあることを指摘します。
Driven by the large foundation models, the development of artificial intelligence has witnessed tremendous progress lately, leading to a surge of general interest from the public. In this study, we aim to assess the performance of OpenAI's newest model, GPT-4V(ision), specifically in the realm of multimodal medical diagnosis. Our evaluation encompasses 17 human body systems, including Central Nervous System, Head and Neck, Cardiac, Chest, Hematology, Hepatobiliary, Gastrointestinal, Urogenital, Gynecology, Obstetrics, Breast, Musculoskeletal, Spine, Vascular, Oncology, Trauma, Pediatrics, with images taken from 8 modalities used in daily clinic routine, e.g., X-ray, Computed Tomography (CT), Magnetic Resonance Imaging (MRI), Positron Emission Tomography (PET), Digital Subtraction Angiography (DSA), Mammography, Ultrasound, and Pathology. We probe the GPT-4V's ability on multiple clinical tasks with or without patent history provided, including imaging modality and anatomy recognition, disease diagnosis, report generation, disease localisation. Our observation shows that, while GPT-4V demonstrates proficiency in distinguishing between medical image modalities and anatomy, it faces significant challenges in disease diagnosis and generating comprehensive reports. These findings underscore that while large multimodal models have made significant advancements in computer vision and natural language processing, it remains far from being used to effectively support real-world medical applications and clinical decision-making. All images used in this report can be found in https://github.com/chaoyi-wu/GPT-4V_Medical_Evaluation.
研究の動機と目的
- GPT-4Vの医用画像モダリティと解剖学を認識する能力を評価する。
- GPT-4Vの診断、報告作成、局在のパフォーマンスを複数の画像モダリティで評価する。
- 患者歴と複数画像入力がGPT-4Vの出力に与える影響を検討する。
- 放射線科および病理学における臨床使用の制限と安全性の考慮事項を特定する。
提案手法
- Radiopaediaから放射線科領域の17の体系と8つの画像モダリティにわたるケーススタディを選定する。
- オンラインインターフェースを介して最大4つの2D画像をGPT-4Vに入力し、診断、報告作成、局在などのタスクを指示する。
- 参考注釈をRadiopaedia/PathologyOutlinesから正確性の基準として使用しつつ、標準的臨床フォーマットの制約を留意する。
- 病理評価を2回の対話で実施する(画像のみ、次に画像と組織起源)と段階的な局在タスク(存在、境界ボックス、IOU)。
- 画像の強度をクランプ・正規化し、専門放射線科医の指針に一致する主要スライスを選択する。マルチ画像入力とクロスモーダル入力を別々に評価する。

実験結果
リサーチクエスチョン
- RQ1GPT-4Vは医用画像でモダリティと解剖学的構造を正しく認識できるか?
- RQ2GPT-4Vは医用画像内の解剖学的構造や異常を局在させることができるか?
- RQ3GPT-4Vは正確で臨床的に意味のある放射線科または病理報告を生成できるか?
- RQ4患者歴や異なるモダリティからの複数画像を統合した場合、GPT-4Vはどのように機能するか?
- RQ5現実の医療意思決定でGPT-4Vを使用する際の制限と安全性の考慮事項は何か?
主な発見
- GPT-4Vは多くのケースで画像モダリティと解剖学を認識できる。
- GPT-4Vは正確な病名診断と包括的な報告生成に苦労する。
- GPT-4Vは構造化された報告を生成できるが内容はしばしば誤っている。
- GPT-4Vは画像内のテキストやマーカーをOCRできるが注釈を誤解することがある。
- GPT-4Vは医療機器を特定しその位置を示すことができる。
- GPT-4Vは複数画像を分析し、ラウンド間で文脈を維持するのが難しい。
- 患者の医歴がGPT-4Vの予測に大きく影響する。
- GPT-4Vは解剖学的構造や異常を信頼性高く局在できない(低 IOU、高分散)。
- 性能は変動し、出力において一貫性と安全性の懸念を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。