[논문 리뷰] Towards Accurate Differential Diagnosis with Large Language Models
감별진단에 최적화된 LLM이 NEJM CPC 사례에서 기초 임상의와 GPT-4를 모두 능가하며, 독립적으로도 보조 도구로도 1위 및 상위 10위 DDx 정확도와 DDx 품질 지표에서 우수하다.
An accurate differential diagnosis (DDx) is a cornerstone of medical care, often reached through an iterative process of interpretation that combines clinical history, physical examination, investigations and procedures. Interactive interfaces powered by Large Language Models (LLMs) present new opportunities to both assist and automate aspects of this process. In this study, we introduce an LLM optimized for diagnostic reasoning, and evaluate its ability to generate a DDx alone or as an aid to clinicians. 20 clinicians evaluated 302 challenging, real-world medical cases sourced from the New England Journal of Medicine (NEJM) case reports. Each case report was read by two clinicians, who were randomized to one of two assistive conditions: either assistance from search engines and standard medical resources, or LLM assistance in addition to these tools. All clinicians provided a baseline, unassisted DDx prior to using the respective assistive tools. Our LLM for DDx exhibited standalone performance that exceeded that of unassisted clinicians (top-10 accuracy 59.1% vs 33.6%, [p = 0.04]). Comparing the two assisted study arms, the DDx quality score was higher for clinicians assisted by our LLM (top-10 accuracy 51.7%) compared to clinicians without its assistance (36.1%) (McNemar's Test: 45.7, p < 0.01) and clinicians with search (44.4%) (4.75, p = 0.03). Further, clinicians assisted by our LLM arrived at more comprehensive differential lists than those without its assistance. Our study suggests that our LLM for DDx has potential to improve clinicians' diagnostic reasoning and accuracy in challenging cases, meriting further real-world evaluation for its ability to empower physicians and widen patients' access to specialist-level expertise.
연구 동기 및 목표
- 임상 워크플로우에서 대화형 AI를 활용한 개선된 DDx를 촉진한다.
- 의료 데이터를 바탕으로 진단 추론에 전문화된 LLM을 개발한다.
- 독립형 DDx 성능을 임상의가 생성한 DDx와 비교 평가한다.
- 전통적 검색 기반 보조에 비해 LLM 보조 DDx 생성을 평가한다.
- 안전성, 유용성 및 교육적 잠재력에 대한 임상의 질적 관점을 탐색한다.
제안 방법
- 장문 맥락 추론 가능성을 위해 의료 QA, 의료 대화, EHR 노트 요약에 기반한 PaLM 2 기반 LLM을 미세조정한다.
- NEJM CPC 사례 보고서(302건)를 사용하여 DDx 생성을 평가한다: (i) 독립 LLM, (ii) LLM-도움 임상의 DDx 생성, (iii) 검색만을 이용한 임상의 DDx.
- 조건에 무작위 배정과 DDx 품질에 대한 맹검 전문가 평가가 포함된 2단계 독자 연구를 구현한다.
- 상위-N 정확도 및 정성적/구조화된 품질 지표(Bond et al. differential score, 적합성, 포괄성)를 통해 DDx 목록을 정량적으로 평가한다.
- DDx 목록에 대한 예측 진단과 실제 진단 간 Med-PaLM 2의 자동 평가를 계산한다.
- 임상의와의 반구조화 인터뷰를 수행하여 인식과 활용 사례를 수집한다.
실험 결과
연구 질문
- RQ1의료 도메인 LLM이 challenging real-world 사례에서 정확한 차별 진단을 생성할 수 있는가?
- RQ2LLM 보조가 전통적 검색 도구에 비해 임상의 DDx 품질, 포괄성 및 최종 진단과의 일치를 개선하는가?
- RQ3동일 DDx 벤치마크에서 자동 평가를 사용했을 때 LLM의 GPT-4 대비 성능은 어떠한가?
- RQ4임상의가 차별 진단에서 LLM의 안전성, 유용성 및 잠재적 역할을 어떻게 인식하는가?
- RQ5임상 교육 및 진료 제공에 LLM 기반 DDx 도구를 통합하기 위한 실용적 고려사항은 무엇인가?
주요 결과
- LLM은 302건의 NEJM CPC 사례에서 상위-10 DDx 정확도 59.1%를 달성했다(비도움 임상의 33.6%보다 우수).
- 임상의 보조 조건에서 LLM은 상위-10 정확도를 51.7%로 올렸고 LLM 없이 36.1%와 비교된다(McNemar 검정, p<0.01).
- LLM의 DDx 목록은 품질이 더 높고(중앙값 5) 임상의와 비교해 포괄성과 적합성이 더 크며 유의한 개선을 보였다(p<0.01에서 p<0.001).
- LLM-보조 조건은 독립(6) 및 검색 보조(7)보다 더 길고 포괄적인 DDx 목록을 생성했다(중앙값 길이 8).
- 질적 인터뷰에서 임상의는 교육적 가치를 보고 전문적 수준의 추론에 대한 접근성을 넓힐 잠재력을 보였으나 부정확성 위험과 인간 감독의 필요성을 지적했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.