[論文レビュー] Guideline-grounded retrieval-augmented generation for ophthalmic clinical decision support
Oph-Guid-RAG は、ガイドラインページを証拠として用いる多模態の検索付き生成システムで、眼科の臨床質問応答におけるルーティングと多模態推論を制御可能に行い、証拠の基盤と堅牢性を向上させる。
In this work, we propose Oph-Guid-RAG, a multimodal visual RAG system for ophthalmology clinical question answering and decision support. We treat each guideline page as an independent evidence unit and directly retrieve page images, preserving tables, flowcharts, and layout information. We further design a controllable retrieval framework with routing and filtering, which selectively introduces external evidence and reduces noise. The system integrates query decomposition, query rewriting, retrieval, reranking, and multimodal reasoning, and provides traceable outputs with guideline page references. We evaluate our method on HealthBench using a doctor-based scoring protocol. On the hard subset, our approach improves the overall score from 0.2969 to 0.3861 (+0.0892, +30.0%) compared to GPT-5.2, and achieves higher accuracy, improving from 0.5956 to 0.6576 (+0.0620, +10.4%). Compared to GPT-5.4, our method achieves a larger accuracy gain of +0.1289 (+24.4%). These results show that our method is more effective on challenging cases that require precise, evidence-based reasoning. Ablation studies further show that reranking, routing, and retrieval design are critical for stable performance, especially under difficult settings. Overall, we show how combining visionbased retrieval with controllable reasoning can improve evidence grounding and robustness in clinical AI applications,while pointing out that further work is needed to be more complete.
研究の動機と目的
- Independent evidence unitsとしてのガイドラインページを用い、眼科臨床意思決定の堅牢で証拠に基づく支援を動機づける。
- ページ画像を検索して表、フローチャート、レイアウトを保持する多模態 RAG システムを開発する。
- ノイズを削減し、ガイドライン参照の追跡性を確保する制御可能なルーティングとフィルタリングの枠組みを導入する。
提案手法
- 各ガイドラインページを独立した証拠ユニットとして扱い、レイアウトを保持したページ画像を取得する。
- クエリ分解、書き換え、取得、リランク、そして多模态推論のパイプラインを実装する。
- 外部証拠を選択的に導入しノイズを低減する制御可能なルーティングとフィルタリング機構を組み込む。
- ガイドラインページ参照を伴う追跡可能な出力を提供する。
実験結果
リサーチクエスチョン
- RQ1ガイドライン基盤の多模态 RAG システムは、ベースラインの LLM より眼科臨床意思決定支援の正確性を改善できるか?
- RQ2ページ画像の取得と制御可能なルーティングが眼科の QA における証拠の基盤と堅牢性に与える影響は?
- RQ3リランクと取得設計が、正確な推論を要する難易度の高いケースでの性能にどう影響するか?
主な発見
- HealthBench の hard サブセットで、GPT-5.2 から総合スコアを 0.2969 から 0.3861 に改善(+0.0892、+30.0%)。
- GPT-5.2 から正確性を向上させ、0.5956 から 0.6576 に改善(+0.0620、+10.4%)。
- GPT-5.4 との比較で、正確性の向上がより大きく +0.1289(+24.4%)となる。
- アブレーション研究は、リランク、ルーティング、取得設計が、特に難易度の高い設定で安定した性能にとって重要であることを示している。
- 視覚ベースの取得と制御可能な推論を組み合わせることで、臨床AIアプリケーションにおける証拠の基盤と堅牢性が向上することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。