[論文レビュー] How essential are unstructured clinical narratives and information fusion to clinical trial recruitment?
本研究では、慢性リンパ球性白血病(CLL)および前立腺がんの臨床試験における患者の登録資格を正確に特定するためには、非構造化臨床ナラティブと情報統合が不可欠であることを示している。自然言語処理と構造化および非構造化EHRデータの時間的推論を用いて、著者らはCLL試験の59%および前立腺がん試験の77%の登録基準が臨床ナラティブからの情報に依存していることを示しており、構造化データのみでは効果的な登録が不十分であることが明らかになった。
Electronic health records capture patient information using structured controlled vocabularies and unstructured narrative text. While structured data typically encodes lab values, encounters and medication lists, unstructured data captures the physician's interpretation of the patient's condition, prognosis, and response to therapeutic intervention. In this paper, we demonstrate that information extraction from unstructured clinical narratives is essential to most clinical applications. We perform an empirical study to validate the argument and show that structured data alone is insufficient in resolving eligibility criteria for recruiting patients onto clinical trials for chronic lymphocytic leukemia (CLL) and prostate cancer. Unstructured data is essential to solving 59% of the CLL trial criteria and 77% of the prostate cancer trial criteria. More specifically, for resolving eligibility criteria with temporal constraints, we show the need for temporal reasoning and information integration with medical events within and across unstructured clinical narratives and structured data.
研究の動機と目的
- 非構造化臨床ナラティブが臨床試験の登録基準を解消するためにどの程度必要であるかを評価すること。
- 構造化データのみで登録基準を解消できるのか、それともナラティブとの情報統合が不可欠であるかを評価すること。
- EHRデータソース間の資格制約を解釈するうえで、時間的推論が果たす役割を調査すること。
- 臨床ナラティブからの情報抽出に依存する基準の割合を数量的に特定すること。
- 腫瘍学的臨床試験における患者の登録に、構造化EHRデータにのみ依存することの限界を示すこと。
提案手法
- 慢性リンパ球性白血病(CLL)および前立腺がんの患者からの実世界のEHRデータを用いた実証的調査を実施した。
- 両疾患の臨床試験プロトコルから登録基準を抽出し、分析した。
- 自然言語処理(NLP)技術を用いて、非構造化ナラティブノートから臨床的に関連する情報を抽出した。
- 情報統合を用いて、非構造化ナラティブの結果と構造化データ(例:検査値、薬剤)を統合した。
- 疾患持続期間、以前の治療、反応タイムラインなど、時間依存の基準を解消するために時間的推論を実施した。
- 基準の解消にナラティブデータが必要な割合を数量化し、構造化データのみ vs. 統合データのアプローチを比較した。
実験結果
リサーチクエスチョン
- RQ1非構造化臨床ナラティブは、臨床試験の登録基準を解消するためにどの程度貢献しているか。
- RQ2構造化EHRデータのみで臨床試験の登録基準を解消できるのか、それともナラティブとの情報統合が不可欠であるか。
- RQ3臨床データソース間の資格制約を解釈するうえで、時間的推論はどの程度重要であるか。
- RQ4CLLおよび前立腺がん試験の登録基準の何パーセントが、臨床ナラティブからの情報抽出に依存しているか。
- RQ5構造化データと非構造化データの情報統合は、患者の登録精度をどのように向上させるか。
主な発見
- 非構造化臨床ナラティブは、慢性リンパ球性白血病(CLL)試験の59%の登録基準を解消するために不可欠であった。
- 前立腺がん試験では、77%の登録基準が臨床ナラティブからの情報が必要であった。
- 構造化データのみでは、臨床的判断、予後、治療反応に関連する基準の大多数を解消できず、不十分であった。
- ナラティブと構造化データの間で時間的推論を実施することで、疾患持続期間や治療歴などの時間依存制約を解消するうえで極めて重要であった。
- 非構造化ナラティブと構造化データの情報統合により、患者の登録資格の決定の完全性と正確性が著しく向上した。
- 本研究では、構造化データにのみ依存することで、臨床ノートに記録された重要な登録情報が見過ごされ、顕著な登録不足が生じることを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。