[논문 리뷰] Agentic LLM Workflows for Generating Patient-Friendly Medical Reports
논문은 다중 에이전트 Reflexion 기반 워크플로를 제시하여 환자 친화적 영상의학 편지를 반복적으로 생성하고, 제로샷 프롬프트보다 더 높은 정확도와 가독성을 달성하며 필요한 편집 수를 줄인다.
The application of Large Language Models (LLMs) in healthcare is expanding rapidly, with one potential use case being the translation of formal medical reports into patient-legible equivalents. Currently, LLM outputs often need to be edited and evaluated by a human to ensure both factual accuracy and comprehensibility, and this is true for the above use case. We aim to minimize this step by proposing an agentic workflow with the Reflexion framework, which uses iterative self-reflection to correct outputs from an LLM. This pipeline was tested and compared to zero-shot prompting on 16 randomized radiology reports. In our multi-agent approach, reports had an accuracy rate of 94.94% when looking at verification of ICD-10 codes, compared to zero-shot prompted reports, which had an accuracy rate of 68.23%. Additionally, 81.25% of the final reflected reports required no corrections for accuracy or readability, while only 25% of zero-shot prompted reports met these criteria without needing modifications. These results indicate that our approach presents a feasible method for communicating clinical findings to patients in a quick, efficient and coherent manner whilst also retaining medical accuracy. The codebase is available for viewing at http://github.com/malavikhasudarshan/Multi-Agent-Patient-Letter-Generation.
연구 동기 및 목표
- 방사선 보고서에서 환자 친화적 의료 편지를 생성할 때 인간의 검증 필요성을 줄이는 것.
- 환자 편지에서 ICD-10 코드를 보존하여 사실 정확성을 개선하는 것.
- 의료 내용을 유지하면서 가독성을 목표 학년 수준의 가독성에 맞추거나 그에 근접하게 향상시키는 것.
- 자동 배치를 위한 EHR 서버와의 종단 간 통합을 시연하는 것.
제안 방법
- 자기 성찰을 통해 LLM 출력을 반복적으로 다듬기 위한 Reflexion 기반 다중 에이전트 프레임워크를 사용합니다.
- 초기 LLM 패스로 원래 보고서에서 ICD-10 코드를 추출합니다.
- 여러 개의 환자 친화적 편지를 생성하고 각 편지에서 ICD-10 코드를 추출하여 마스터 ICD-10 데이터베이스와 대조합니다.
- 가독성(대상 ~6.0 FK)과 정확도(ICD-10 코드 일치)를 가중치(0.3, 0.7)로 결합한 종합 점수를 계산합니다.
- 반복 개선을 위한 Reflexion AlfWorld 모듈을 활용하고 EHR 배치를 위한 최상의 편지를 선택합니다.
- 개선 여부를 평가하기 위해 동일한 원래 프롬프트를 사용한 제로샷 프롬프트와 비교합니다.
실험 결과
연구 질문
- RQ1다중 에이전트 Reflec tion 기반 워크플로가 제로샷 프롬프트와 비교할 때 환자 친화적 편지의 ICD-10 코드 유지율을 향상시킵니까?
- RQ2이 접근법이 정확도를 해치지 않으면서 읽기 쉬운 환자 친화적 수준까지 가독성을 향상시킵니까?
- RQ3Reflexion 기반 처리 후 추가 수정이 필요 없는 생성 편지의 비율은 얼마입니까?
- RQ4최종 편지를 환자 접근을 위해 신뢰할 수 있게 EHR 서버로 다시 전송할 수 있습니까?
주요 결과
- 최종 반영된 편지는 ICD-10 코드 정확도 94.94%를 달성했고 제로샷 프롬프트는 68.23%였다.
- 최종 반영된 보고서의 81.25%가 정확도나 가독성에 대해 수정이 필요하지 않았으며, 제로샷 출력은 25%였다.
- 16건의 시험 영상의학 보고서 중 제로샷 프롬프트는 11/16 사례에서 편집이 필요했고, 에이전트 기반 워크플로는 3/16에서 편집이 필요했다.
- 반영된 편지의 평균 정확도 이점은 26.71%이고 가독성 향상은 3.29%이며, 전체 점수는 17.51% 더 높아졌다.
- 가독성은 평균 11.03 FK 학년 수준으로 나타났으며, 환자 대상 자료의 목표는 약 6.0 FK 수준인데, 이 접근법은 이 목표에 더 근접하려고 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.