Skip to main content
QUICK REVIEW

[論文レビュー] Zero-Shot Clinical Trial Patient Matching with LLMs

Michael Wornow, Alejandro Lozano|arXiv (Cornell University)|Feb 5, 2024
Radiomics and Machine Learning in Medical Imaging被引用数 9
ひとこと要約

GPT-4ベースのゼロショットシステムが非構造化ノートから患者の適格性を試験基準と照合し、2018年 n2c2コホートで最先端を達成し、解釈可能な正当化を伴うコスト効率の高い、リトリーバル強化プロンプトを提供する。

ABSTRACT

Matching patients to clinical trials is a key unsolved challenge in bringing new drugs to market. Today, identifying patients who meet a trial's eligibility criteria is highly manual, taking up to 1 hour per patient. Automated screening is challenging, however, as it requires understanding unstructured clinical text. Large language models (LLMs) offer a promising solution. In this work, we explore their application to trial matching. First, we design an LLM-based system which, given a patient's medical history as unstructured clinical text, evaluates whether that patient meets a set of inclusion criteria (also specified as free text). Our zero-shot system achieves state-of-the-art scores on the n2c2 2018 cohort selection benchmark. Second, we improve the data and cost efficiency of our method by identifying a prompting strategy which matches patients an order of magnitude faster and more cheaply than the status quo, and develop a two-stage retrieval pipeline that reduces the number of tokens processed by up to a third while retaining high performance. Third, we evaluate the interpretability of our system by having clinicians evaluate the natural language justifications generated by the LLM for each eligibility decision, and show that it can output coherent explanations for 97% of its correct decisions and 75% of its incorrect ones. Our results establish the feasibility of using LLMs to accelerate clinical trial operations.

研究の動機と目的

  • 未構造EHRテキストにゼロショットLLM推論を適用して、手動で時間のかかる試験適格性スクリーニングを削減する。
  • 訓練データやインコンテキストの例なしで、2018年n2c2 Cohort Selectionベンチマークで最先端の性能を示す。
  • プロンプト戦略と2段階リトリーバルパイプラインによってデータとコスト効率を改善する。
  • 臨床医が適格性決定のためにLLMが生成した自然言語の推論を評価して、解釈可能性を評価する。

提案手法

  • 適格性評価におけるGPT-3.5、GPT-4、およびオープンソースLLM(Llama-2-70b、Mixtral-8x7B)のゼロショット性能を評価する。
  • 情報量と効率を評価するため、ACAN、ACIN、ICAN、ICINのプロンプト戦略を比較する。
  • 評価モデルへプロンプトする前に、小規模埋め込みモデル(BGEまたはMiniLM)を用いた前処理フィルタリングを含む2段階リトリーバルパイプラインを実装する。
  • 解析と解釈性を可能にするため、Criterion、Medications、Rationale、Decision、Confidenceを含む構造化プロンプト出力(JSON)を使用する。
  • 全文ノートの代わりに上位k件の retrieved チャンクを入力してリトリーバルのトークン効率を調査する。
  • 正解・不正解の決定に対するLLM推論の医師による解釈性レビューを通じて評価する。
Figure 1: We explore zero-shot clinical trial patient matching with LLMs under two system designs: (a) We inject the patient’s entire set of notes into a prompt input into an Assessment LLM (e.g. GPT-4) for evaluation. (b) In our two-stage retrieval pipeline, we first query the top- $k$ most relevan
Figure 1: We explore zero-shot clinical trial patient matching with LLMs under two system designs: (a) We inject the patient’s entire set of notes into a prompt input into an Assessment LLM (e.g. GPT-4) for evaluation. (b) In our two-stage retrieval pipeline, we first query the top- $k$ most relevan

実験結果

リサーチクエスチョン

  • RQ1ファインチューニングなしで、フリーテキストの試験基準に対してゼロショットLLMが患者の適格性を正確に評価できるか。
  • RQ2トークン数・コスト・API呼び出しを最小化しつつ、正確性を最大化するプロンプト戦略はどれか。
  • RQ3リトリーバルベースの事前フィルタリング手順は、性能を犠牲にせずトークン使用量を削減するか。
  • RQ4LLM生成の推論は一貫性があり、臨床のレビュアーにとって有用か。
  • RQ5n2c2 2018コホートにおけるゼロショットモデルは、従来の最先端とどう比較されるか。

主な発見

  • GPT-4は2018 n2c2コホートでゼロショット評価においてMacro-F1とMicro-F1の最先端を達成(従来のSOTAよりMacro-F1を+6、Micro-F1を+2改善)。
  • プロンプト戦略は重要:基準定義の特異性を高めると正確性が向上する(例:改善された基準を用いたGPT-4は戦略に応じてMacro-F1が0.81–0.93の範囲に達する)。
  • ACINプロンプトはすべての基準を1つのプロンプトにまとめ、個別ノートで実施する構成がコスト効率を最良にし、他戦略相比でトークン数、API呼び出し、コストを約1桁のオーダー削減。
  • 小規模埋め込みモデル(MiniLMまたはBGE)を用いた2段階リトリーバルパイプラインは、トークン使用量を3分の1以上削減し、特定の評価指標で従来の最先端を上回る。
  • 臨床医の評価では、決定が正しい場合GPT-4生成の推論は完全に正しいとは限らないが89%が完全に正しく、決定が不正解の場合は67%(うち8%部分的、25%不正)であり、解釈性が高く、有用な説明であるが完璧ではないことを示している。
  • リトリーバルベースのアプローチはコストを削減できるが、全文ノートを入力する場合と比べて性能差が生じる可能性がある;最適なプロンプトとチャンク化がこれを緩和する。
  • このシステムは、モデルのファインチューニングやインコンテキスト例なしで、より速く安価でスケーラブルな臨床試験の患者マッチングの可能性を示している。
Figure 2: Model performance increases as the number ( $k$ ) of retrieved documents increases, but quickly plateaus with diminishing returns. We test $k\in\{1,3,5,10\}$ . Each subfigure is a different prompting strategy. The y-axis is model performance (Macro/Micro-F1) and the x-axis is the total num
Figure 2: Model performance increases as the number ( $k$ ) of retrieved documents increases, but quickly plateaus with diminishing returns. We test $k\in\{1,3,5,10\}$ . Each subfigure is a different prompting strategy. The y-axis is model performance (Macro/Micro-F1) and the x-axis is the total num

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。