Skip to main content
QUICK REVIEW

[論文レビュー] LLM-Guided Diagnostic Evidence Alignment for Medical Vision-Language Pretraining under Limited Pairing

Huimin Yan, Liang Bai|arXiv (Cornell University)|Feb 7, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

LGDEAはLLM抽出の診断証拠を用いて画像と報告を整合させるエビデンスレベルの医療VLPフレームワークを導入し、ペアデータへの依存を減らし、フレーズグラウンディング、画像–テキスト検索、ゼロショット分類を改善します。

ABSTRACT

Most existing CLIP-style medical vision--language pretraining methods rely on global or local alignment with substantial paired data. However, global alignment is easily dominated by non-diagnostic information, while local alignment fails to integrate key diagnostic evidence. As a result, learning reliable diagnostic representations becomes difficult, which limits their applicability in medical scenarios with limited paired data. To address this issue, we propose an LLM-Guided Diagnostic Evidence Alignment method (LGDEA), which shifts the pretraining objective toward evidence-level alignment that is more consistent with the medical diagnostic process. Specifically, we leverage LLMs to extract key diagnostic evidence from radiology reports and construct a shared diagnostic evidence space, enabling evidence-aware cross-modal alignment and allowing LGDEA to effectively exploit abundant unpaired medical images and reports, thereby substantially alleviating the reliance on paired data. Extensive experimental results demonstrate that our method achieves consistent and significant improvements on phrase grounding, image--text retrieval, and zero-shot classification, and even rivals pretraining methods that rely on substantial paired data.

研究の動機と目的

  • 臨床推論を反映する診断証拠アラインメントへとグローバル/ローカル特徴の整合から移行する医療ビジョン–言語の事前学習を動機付ける。
  • LLMsを活用して放射線診断レポートから診断証拠を抽出し、共有された診断証拠スペースを構築する。
  • 豊富な非ペア画像/レポートを学習に活用しつつ、限られたペアデータを用いて跨モーダル整合を導く。

提案手法

  • LLMsを介して放射線診断レポートから証拠を抽出し各証拠フレーズをエンコードして跨モーダル診断証拠スペースを構築する。
  • 証拠を潜在意味空間に整理する学習可能な診断プロトタイプを導入し、プロトタイプから証拠を再構成するようテキストエンコーダを訓練する。
  • 病変クエリとパッチレベルのアテンションを介して病変レベルの視覚特徴を診断証拠スペースへグラウンドし、証拠レベルの画像表現を実現する。
  • 画像と報告によって誘導されるプロトタイプ分布間のKLダイバージェンスを用いて視覚・テキスト証拠を整合させ、ペアデータを教師信号として活用する。
  • 非ペア画像に対して証拠の一貫性を類似度ベースのプロトタイプ分布正則化で強制する。
  • 分散データ間の sparse ペアリンクを内部モーダル証拠グラフ上で伝播させ、より高次の画像–報告関係を推定することによって証拠に導かれた弱い跨モーダル整合を実施する。
Figure 1: Motivation of LGDEA. Global and local alignment may overlook diagnostic evidence, whereas LGDEA aligns images and reports in a shared diagnostic evidence space.
Figure 1: Motivation of LGDEA. Global and local alignment may overlook diagnostic evidence, whereas LGDEA aligns images and reports in a shared diagnostic evidence space.

実験結果

リサーチクエスチョン

  • RQ1限られたペアデータと豊富な単一モードデータを用いて信頼できる跨モーダル診断証拠スペースをどのように構築するか?
  • RQ2従来のグローバル/ローカル整合がデータを多く必要とする場合、証拠レベルの整合は医療VLPの診断意味論を改善できるか?
  • RQ3高次の証拠関係を推定して、弱く教師なしの画像–報告整合を支援するにはどうするべきか?
  • RQ4証拠抽出のために異なるLLMを使用した場合の下流VLPタスクへの影響はどうなるか?

主な発見

  • LGDEAは限られたペアリング下で一貫してフレーズグラウンディング、画像–テキスト検索、ゼロショット分類を改善する。
  • 限られたペアデータで、LGDEAはフレーズグラウンディングと検索タスクで複数の完全ペアベースのベースラインを上回ることがある。
  • 証拠の一貫性と証拠グラフ上の伝播を通じて非ペアデータを効果的に活用し、学習を安定化させる。
  • 証拠主導の跨モーダル整合は、跨ドメイン画像を追加の非ペアデータとして用いた場合にも競争力のある結果を生む。
  • このフレームワークは証拠抽出のLLM選択に対して頑健であり、Spark-Desk、Qwen-7B、LLaMA-8Bのいずれを使用しても高い性能を維持する。
Figure 2: Overview of the proposed LGDEA framework. (a) LLMs extract diagnostic evidence from radiology reports, and both report evidence and lesion-level visual cues are projected into a shared diagnostic evidence space. (b) Under limited pairing, paired evidence links are used as seed edges to ali
Figure 2: Overview of the proposed LGDEA framework. (a) LLMs extract diagnostic evidence from radiology reports, and both report evidence and lesion-level visual cues are projected into a shared diagnostic evidence space. (b) Under limited pairing, paired evidence links are used as seed edges to ali

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。