[論文レビュー] Large Language Models with Retrieval-Augmented Generation for Zero-Shot Disease Phenotyping
この論文は、MapReduceを用いた検索拡張生成による全EHRノートのゼロショット病態表現を提示し、肺高血圧を適用、医師のルールベースの phenotype を上回る。
Identifying disease phenotypes from electronic health records (EHRs) is critical for numerous secondary uses. Manually encoding physician knowledge into rules is particularly challenging for rare diseases due to inadequate EHR coding, necessitating review of clinical notes. Large language models (LLMs) offer promise in text understanding but may not efficiently handle real-world clinical documentation. We propose a zero-shot LLM-based method enriched by retrieval-augmented generation and MapReduce, which pre-identifies disease-related text snippets to be used in parallel as queries for the LLM to establish diagnosis. We show that this method as applied to pulmonary hypertension (PH), a rare disease characterized by elevated arterial pressures in the lungs, significantly outperforms physician logic rules ($F_1$ score of 0.62 vs. 0.75). This method has the potential to enhance rare disease cohort identification, expanding the scope of robust clinical research and care gap identification.
研究の動機と目的
- 希少疾患のための手動ルール作成を伴わず、広範なEHRデータからスケーラブルで正確な疾患表現を動機づける。
- 全患者記録から疾患関連の断片を事前識別するための retrieval-augmented generation (RAG) パイプラインを導入する。
- 断片ごとの推定を患者診断に結合する MapReduce ベースの集約を評価する。
- 見られていないデータに対して、LLMベースの表現型と医師が開発した構造化表現型のベースラインを比較する。
提案手法
- 正規表現(Regex)を用いて患者ノートから関連する2,048トークンの断片を取得する。
- 取得した断片を大規模言語モデル(PaLM-2版)に入力し、ゼロショット設定で診断を行う。
- 各断片を並列で照会し、断片ごとの出力を生成するためにMapReduceを適用する。
- LLMベースの集約とMax関数集約の二つの集約戦略を比較する。
- チェーン・オブ・ソート(思考過程)を含むプロンプト設計や、履歴と現在のPH信号のバランスを取るスティアリングを実験する。
- 誤検知を減らし性能を向上させるためにECHO/CT関連の断片を除外する。
実験結果
リサーチクエスチョン
- RQ1疾患特異的なルールなしで、retrieval-augmented LLMパイプラインは全患者記録を分析してPHを識別できるか?
- RQ2MapReduceベースの集約は断片推定を患者レベルの表現型へ結合する際の頑健性と正確性を向上させるか?
- RQ3PHに関するLLMベースの表現型は、F1スコアの観点で従来のSME開発の構造化表現型とどう比較されるか?
- RQ4どのプロンプト設計と取得除外が最良のゼロショットPH診断性能をもたらすか?
主な発見
| Model | Aggregation | ECHO Exclusion | F1 score |
|---|---|---|---|
| Structured | — | — | 0.62 |
| LLM | Max | Regex | 0.73 |
| LLM | Max | Prompt Amended | 0.75 |
| LLM | LLM | Prompt Amended | 0.72 |
- LLMベースの表現型は、テストセットで構造化表現型を一般的に18%–21%上回るF1を達成。
- 最高性能の構成(Regex除外を含むMax集約)は、テストセットでF10.73を達成。
- プロンプトの修正およびECHO/CT除外を含めると検証で性能が向上し、最終的な設計方針を導いた。
- 取得されたノートは29種類の異なるノートタイプにまたがっており、PH識別にはノートタイプ横断の取得が重要であることを強調している。
- 検証からテストへのF1の低下がやや見られる(0.05–0.10)、コホート規模と訓練データへの過学習が原因の可能性。
- 実践では、LLMベースのアプローチは構造化表現型の約2倍のPH確定患者を特定した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。