QUICK REVIEW

[論文レビュー] MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models

Boqi Chen, Xudong Liu|arXiv (Cornell University)|Feb 25, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

MEDSYN は最大7種のエビデンスを用いた多言語・多モーダル臨床ケースのベンチマークで、18つのMLLMs におけるDDx生成とFDx選択を評価し、異種エビデンスの統合とクロ modality 利用のギャップを明らかにする。エビデンス感度を導入してクロモーダルのギャップを定量化し、介入を指針する。

ABSTRACT

Multimodal large language models (MLLMs) have shown great potential in medical applications, yet existing benchmarks inadequately capture real-world clinical complexity. We introduce MEDSYN, a multilingual, multimodal benchmark of highly complex clinical cases with up to 7 distinct visual clinical evidence (CE) types per case. Mirroring clinical workflow, we evaluate 18 MLLMs on differential diagnosis (DDx) generation and final diagnosis (FDx) selection. While top models often match or even outperform human experts on DDx generation, all MLLMs exhibit a much larger DDx--FDx performance gap compared to expert clinicians, indicating a failure mode in synthesis of heterogeneous CE types. Ablations attribute this failure to (i) overreliance on less discriminative textual CE ($\it{e.g.}$, medical history) and (ii) a cross-modal CE utilization gap. We introduce Evidence Sensitivity to quantify the latter and show that a smaller gap correlates with higher diagnostic accuracy. Finally, we demonstrate how it can be used to guide interventions to improve model performance. We will open-source our benchmark and code.

研究の動機と目的

複雑で多言語な臨床ケースにおけるMultimodal LLMs のDifferential diagnoses (DDx) の生成能力とFinal diagnoses (FDx) の選択精度を評価する。
ケースごとに最大7種のエビデンスタイプと8枚の画像を用いて実臨床ワークフローを反映する。
異種臨床エビデンスの統合と介入を指針するボトルネックを同定する。

提案手法

452件のケース（英語と中国語）を含む多言語・多モーダルベンチマーク（MEDSYN）を構築し、最大7種のエビデンスタイプとケースあたり8.42枚の画像を跨ぐ。
DDx生成（オープンエンド）およびFDx選択（選択肢式MCQ）で18つのMLLMs（独自・オープンソース・ドメイン特化）を評価する。
GPT-5を自動DDx判定者として用い、FDxの臨床医検証を実施、誤選択肢の対立的改良プロセスを適用する。
二つのアブレーションを実施：Remove-Text（テキストCEを省略）とRandom-Text（テキストCEをランダムトークンに置換）でエビデンスバイアスを検討する。
Evidence Sensitivityを導入し、各CEタイプがモデルの意思決定に及ぼす影響を定量化する。モダリティ間での画像対専門家由来のテキスト所見を比較する。
介入を実証する（テスト時のプロンプト改良と標的SFT）ことでクロモーダルエビデンス利用ギャップを縮小する。

実験結果

リサーチクエスチョン

RQ1高度な多モーダル・多言語ケースにおいて、最先端のMLLMは臨床的に包括的なDDxリストを生成しFDxを正確に選択できるか。
RQ2DDxの網羅性とFDxの正確性のギャップに寄与する要因は何か。テキスト情報と視覚情報、クロモーダル整合性はこのギャップにどう影響するか。
RQ3テキストCEへの依存を減らすか、クロモーダルエビデンスを整合させると診断性能は改善するか。どのようにモデルのファインチューニングを指針付けるべきか。
RQ4言語別・臨床専門分野別の性能変動はどうなるか。ドメイン固有の訓練は単なるパラメータスケーリングよりも上回るか。

主な発見

先進的モデルはDDx生成では臨床医を上回ることが多いが、FDx選択では遅れがあり、DDx–FDxギャップは英語で約20ポイント程度であり、異種CEタイプ間の統合の難しさを示す。
モデルは文本CE（例：病歴）に過度に依存し、識別的な視覚CEを過小活用する傾向がある。そのため文本CEを削除するかランダム化すると、FDxの精度が視覚へ注意を移すことで予期せず向上する。
視覚理解は依然としてボトルネックで、視覚CEの専門家由来のテキスト解釈を提供するとFDxが10ポイント以上向上し、クロモーダルの整合性欠如が核心課題であることを示す。
Evidence Sensitivity は実用的な指標で、クロモーダルCE利用ギャップが小さいほど診断精度が高まり介入を導く。
二つの介入で性能が向上：（i）テスト時のプロンプト改良によって過小利用CE（例：顕微鏡画像）を強調、（ii）顕微鏡を多用するデータを用いた標的SFTを実施して、測定可能な精度向上を得る。
ドメイン特化の医療MLLMは、特定の専門分野（例：心臓病学、呼吸器内科学）で、ファインチューニング時に学習した特化マッピングにより大規模な汎用モデルを上回ることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。