[論文レビュー] EviAgent: Evidence-Driven Agent for Radiology Report Generation
EviAgent は planning–ReAct–evidence extraction パイプラインを通じて放射線報告を明示的な視覚的証拠と retrieved knowledge に結びつけ、MIMIC-CXR、CheXpert Plus、IU-Xray で一般モデルおよび専門モデルを上回る。オープンソースの backbone を用い、完全にオンプレミス で動作する。
Automated radiology report generation holds immense potential to alleviate the heavy workload of radiologists. Despite the formidable vision-language capabilities of recent Multimodal Large Language Models (MLLMs), their clinical deployment is severely constrained by inherent limitations: their "black-box" decision-making renders the generated reports untraceable due to the lack of explicit visual evidence to support the diagnosis, and they struggle to access external domain knowledge. To address these challenges, we propose the Evidence-driven Radiology Report Generation Agent (EviAgent). Unlike opaque end-to-end paradigms, EviAgent coordinates a transparent reasoning trajectory by breaking down the complex generation process into granular operational units. We integrate multi-dimensional visual experts and retrieval mechanisms as external support modules, endowing the system with explicit visual evidence and high-quality clinical priors. Extensive experiments on MIMIC-CXR, CheXpert Plus, and IU-Xray datasets demonstrate that EviAgent outperforms both large-scale generalist models and specialized medical models, providing a robust and trustworthy solution for automated radiology report generation.
研究の動機と目的
- エンドツーエンドの放射線報告生成における明示的な視覚証拠と外部知識の欠如に対応する。
- 結論を視覚的所見に基づいて grounding する透明で証拠ベースのエージェントフレームワークを提案する。
- オープンソースの backbone を用いたオンプレミスでのプライバシー保護動作を可能にする。
提案手法
- タスクを細分化して分解する Plan-Act-Report パラダイム。
- perception ツールと retrieved module を動的に呼び出すツール拡張型 ReAct ループ。
- ツール出力から検証可能な証拠連鎖 E を構築する証拠抽出。
- 外部臨床事前知識を提供する retrieval-augmented knowledge base。
- Fine-tuning なしでもツール統合を容易にする Model Context Protocol による拡張性。
実験結果
リサーチクエスチョン
- RQ1証拠主導のエージェントが視覚的証拠と外部知識を用いて放射線報告を grounding できるか。
- RQ2 複数の専門ツール協働はエンドツーエンドMLLMより臨床的正確さとトレーサビリティを向上させるか。
- RQ3 計画と証拠抽出が報告品質に与える影響はどうか。
- RQ4 retrieval-augmented 知識は臨床内容と言語品質にどのような影響を与えるか。
主な発見
| Model | MIMIC-CXR RaTE | MIMIC-CXR Semb | MIMIC-CXR RadCliQ -1 | CheXpert Plus RaTE | CheXpert Plus Semb | CheXpert Plus RadCliQ -1 | IU-Xray RaTE | IU-Xray Semb | IU-Xray RadCliQ -1 |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.1 | 4.91 | 4.98 | 8.67 | 5.62 | 4.85 | 4.23 | 8.17 | 5.55 | 7.42 |
| Claude 4.5 Sonnet | 3.51 | 3.79 | 8.59 | 4.40 | 3.41 | 3.14 | 8.30 | 4.33 | 7.12 |
| Gemini-2.5-Flash | 5.74 | 6.19 | 9.06 | 6.48 | 4.28 | 4.70 | 7.88 | 5.05 | 6.67 |
| LLaVA-Med-7B | 1.74 | 2.88 | 4.28 | 2.23 | 1.71 | 2.85 | 3.86 | 2.06 | 2.07 |
| HuatuoGPT-V-7B | 2.20 | 5.07 | 7.33 | 3.17 | 1.94 | 4.27 | 5.65 | 2.84 | 1.21 |
| BiMediX2-8B | 1.41 | 2.76 | 3.84 | 1.86 | 1.22 | 2.35 | 3.69 | 1.68 | 0.51 |
| MedGemma-4B-IT | 5.44 | 5.61 | 8.16 | 5.97 | 4.16 | 3.82 | 7.68 | 4.80 | 7.24 |
| Lingshu-7B | 5.88 | 5.87 | 8.66 | 6.37 | 4.60 | 3.91 | 7.75 | 5.20 | 7.39 |
| InternVL2.5-8B | 2.41 | 3.44 | 7.33 | 3.41 | 2.55 | 2.86 | 7.06 | 3.52 | 6.81 |
| InternVL3-8B | 3.07 | 4.71 | 7.55 | 4.05 | 2.82 | 3.88 | 7.29 | 3.85 | 3.68 |
| Qwen2.5-VL-7B | 2.30 | 3.49 | 7.30 | 3.43 | 2.21 | 2.93 | 7.13 | 3.33 | 5.79 |
| Qwen3-VL-8B | 3.94 | 4.66 | 7.51 | 4.75 | 3.72 | 3.78 | 7.48 | 4.58 | 5.74 |
| EviAgent (Ours) | 6.04 | 6.32 | 8.70 | 6.61 | 4.91 | 6.66 | 8.45 | 5.72 | 7.48 |
- EviAgent は 3つのデータセットでほとんどの指標で最高性能を達成し、特に RaTE、Semb、RadCliQ -1 で顕著。
- MIMIC-CXR では RaTE で GPT-5.1 を、 Semb では Lu-7B を上回る; IU-Xray では RadCliQ -1 が 110.2 に達する。
- 分類、局在、検索のいずれかを除去すると性能が低下し、特に計画と証拠抽出が大きな影響を及ぼす。
- 定性的分析では、診断の正確性と、推論エンジンよりも perception モジュールに起因する誤りの追跡性が改善されることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。