Skip to main content
QUICK REVIEW

[논문 리뷰] Guideline-grounded retrieval-augmented generation for ophthalmic clinical decision support

Shuying Chen, Sen Cui|arXiv (Cornell University)|2026. 03. 23.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

Oph-Guid-RAG은 가이드라인 페이지를 임증으로 활용하는 다중모달 검색-증강 생성 시스템으로, 안과 임상 질문 응답에 증거를 제공하며, 제어 가능한 라우팅과 다중모달 추론으로 증거 근거화와 강건성을 향상시킨다.

ABSTRACT

In this work, we propose Oph-Guid-RAG, a multimodal visual RAG system for ophthalmology clinical question answering and decision support. We treat each guideline page as an independent evidence unit and directly retrieve page images, preserving tables, flowcharts, and layout information. We further design a controllable retrieval framework with routing and filtering, which selectively introduces external evidence and reduces noise. The system integrates query decomposition, query rewriting, retrieval, reranking, and multimodal reasoning, and provides traceable outputs with guideline page references. We evaluate our method on HealthBench using a doctor-based scoring protocol. On the hard subset, our approach improves the overall score from 0.2969 to 0.3861 (+0.0892, +30.0%) compared to GPT-5.2, and achieves higher accuracy, improving from 0.5956 to 0.6576 (+0.0620, +10.4%). Compared to GPT-5.4, our method achieves a larger accuracy gain of +0.1289 (+24.4%). These results show that our method is more effective on challenging cases that require precise, evidence-based reasoning. Ablation studies further show that reranking, routing, and retrieval design are critical for stable performance, especially under difficult settings. Overall, we show how combining visionbased retrieval with controllable reasoning can improve evidence grounding and robustness in clinical AI applications,while pointing out that further work is needed to be more complete.

연구 동기 및 목표

  • 가이드라인 페이지를 독립적인 증거 단위로 사용하여 강건하고 증거에 근거한 안과 임상 의사결정 지원을 촉진한다.
  • 표, 순서도, 레이아웃을 보존하기 위해 페이지 이미지를 검색하는 다중모달 RAG 시스템을 개발한다.
  • 노이즈를 줄이고 가이드라인 참조를 추적 가능하게 하기 위한 제어 가능한 라우팅 및 필터링 프레임워크를 도입한다.

제안 방법

  • 각 가이드라인 페이지를 독립적인 증거 단위로 취급하고 레이아웃을 보존한 페이지 이미지를 검색한다.
  • 쿼리 분해, 재작성, 검색, 재정렬, 다중모달 추론 파이프라인을 구현한다.
  • 외부 증거를 선택적으로 도입하고 노이즈를 줄이기 위한 제어 가능한 라우팅 및 필터링 메커니즘을 도입한다.
  • 가이드라인 페이지 참조를 포함한 추적 가능한 출력을 제공한다.

실험 결과

연구 질문

  • RQ1가이드라인 기반의 다중모달 RAG 시스템이 기준선 LLM보다 안과 임상 의사결정 지원의 정확도를 향상시킬 수 있는가?
  • RQ2페이지 이미지 검색과 제어 가능한 라우팅이 안과 QA의 증거 근거화와 강건성에 미치는 영향은 무엇인가?
  • RQ3재정렬 및 검색 설계가 정밀한 추론이 필요한 까다로운 사례의 성능에 어떤 영향을 미치는가?

주요 결과

  • HealthBench의 어려운 하위 집합에서 전체 점수를 GPT-5.2 대비 0.3861로 향상( +0.0892, +30.0% ).
  • 정확도가 더 높아져 GPT-5.2 대비 0.6576로 향상(+0.0620, +10.4%).
  • GPT-5.4와 비교하여 더 큰 정확도 증가를 달성하여 +0.1289(+24.4%)를 기록.
  • 적절한 재정렬, 라우팅, 검색 설계가 특히 어려운 설정에서 안정적인 성능에 중요하다는 제거 연구 결과.
  • 비전 기반 검색과 제어 가능한 추론의 결합이 임상 AI 응용에서 증거 근거화와 강건성을 향상시킴을 시연.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.