[論文レビュー] Agentic LLM Workflows for Generating Patient-Friendly Medical Reports
本論文は、患者に優しい放射線科の手紙を反復的に生成する Reflexion-based ワークフローを提案し、ゼロショット prompts より高い正確さと読みやすさを達成し、必要な修正を減らします。
The application of Large Language Models (LLMs) in healthcare is expanding rapidly, with one potential use case being the translation of formal medical reports into patient-legible equivalents. Currently, LLM outputs often need to be edited and evaluated by a human to ensure both factual accuracy and comprehensibility, and this is true for the above use case. We aim to minimize this step by proposing an agentic workflow with the Reflexion framework, which uses iterative self-reflection to correct outputs from an LLM. This pipeline was tested and compared to zero-shot prompting on 16 randomized radiology reports. In our multi-agent approach, reports had an accuracy rate of 94.94% when looking at verification of ICD-10 codes, compared to zero-shot prompted reports, which had an accuracy rate of 68.23%. Additionally, 81.25% of the final reflected reports required no corrections for accuracy or readability, while only 25% of zero-shot prompted reports met these criteria without needing modifications. These results indicate that our approach presents a feasible method for communicating clinical findings to patients in a quick, efficient and coherent manner whilst also retaining medical accuracy. The codebase is available for viewing at http://github.com/malavikhasudarshan/Multi-Agent-Patient-Letter-Generation.
研究の動機と目的
- 放射線報告から患者向け医療手紙を生成する際の人間による検証の必要性を減らす。
- 患者の手紙に ICD-10 コードを保持することによる実務的な正確さを改善する。
- 医療内容を維持しつつ、ターゲットの読解レベルに近づくまたは到達する可読性を向上させる。
- 自動展開のための EHR サーバーとのエンドツェンド統合を実証する。
提案手法
- 自己反省を用いた Reflexion-based マルチエージェント・フレームワークを用いて LLM 出力を反復的に洗練させる。
- 初期の LLM プロセスで元の報告書から ICD-10 コードを抽出する。
- 複数の患者向け手紙を生成し、それぞれから ICD-10 コードを抽出してマスター ICD-10 データベースと照合する。
- 可読性(目標 ~6.0 FK)と正確性( ICD-10 コードの整合性)を組み合わせた総合スコアを、ウェイト(0.3, 0.7)で計算する。
- Reflexion AlfWorld モジュールを用いて反復的改善を実施し、EHR 展開用に最適な手紙を選択する。
- 同じ元のプロンプトを用いたゼロショット prompting と比較して改善を評価する。
実験結果
リサーチクエスチョン
- RQ1マルチエージェント Reflec tion-based ワークフローは、ゼロショット prompting と比較して患者向け手紙の ICD-10 コード保持を改善するか。
- RQ2このアプローチは正確性を損なうことなく、読みやすさを患者向けレベルまで改善するか。
- RQ3Reflexion-based 処理の後に追加修正を必要とせず作成された手紙の割合はどのくらいか。
- RQ4最終的な手紙を患者アクセスのために EHR サーバへ確実にプッシュできるか。
主な発見
- 最終的に反映された手紙は 94.94% の ICD-10 コード正確性を達成し、ゼロショットプロンプトの 68.23% を上回った。
- 最終的な反映レポートの 81.25% が、正確性または可読性の修正を不要としたのに対し、ゼロショット出力は 25% にとどまった。
- 16 件のテスト放射線報告について、ゼロショットプロンプトは 11/16 件で修正が必要だったのに対し、エージェント型ワークフローは 3/16 の修正で済んだ。
- 反映された手紙の平均正確性の利得は 26.71%、可読性の改善は 3.29%、総合スコアは 17.51% 向上した。
- 可読性は平均 11.03 FK 学年レベルで、患者向け資料のターゲットは約 6.0 FK 付近を想定しており、本アプローチはこのターゲットに近づくことを目指す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。