Skip to main content
QUICK REVIEW

[論文レビュー] A Study of Social and Behavioral Determinants of Health in Lung Cancer Patients Using Transformers-based Natural Language Processing Models

Zehao Yu, Xi Yang|PubMed|Aug 10, 2021
Food Security and Health in Diverse Populations参考文献 38被引用数 38
ひとこと要約

この論文はBERTとRoBERTaのトランスフォーマーベースのNLPモデルを比較し、臨床記述からSBDoH概念を抽出し、肺がんコホートのために記述が構造化EHRより詳細を追加することを示しています。

ABSTRACT

Social and behavioral determinants of health (SBDoH) have important roles in shaping people's health. In clinical research studies, especially comparative effectiveness studies, failure to adjust for SBDoH factors will potentially cause confounding issues and misclassification errors in either statistical analyses and machine learning-based models. However, there are limited studies to examine SBDoH factors in clinical outcomes due to the lack of structured SBDoH information in current electronic health record (EHR) systems, while much of the SBDoH information is documented in clinical narratives. Natural language processing (NLP) is thus the key technology to extract such information from unstructured clinical text. However, there is not a mature clinical NLP system focusing on SBDoH. In this study, we examined two state-of-the-art transformer-based NLP models, including BERT and RoBERTa, to extract SBDoH concepts from clinical narratives, applied the best performing model to extract SBDoH concepts on a lung cancer screening patient cohort, and examined the difference of SBDoH information between NLP extracted results and structured EHRs (SBDoH information captured in standard vocabularies such as the International Classification of Diseases codes). The experimental results show that the BERT-based NLP model achieved the best strict/lenient F1-score of 0.8791 and 0.8999, respectively. The comparison between NLP extracted SBDoH information and structured EHRs in the lung cancer patient cohort of 864 patients with 161,933 various types of clinical notes showed that much more detailed information about smoking, education, and employment were only captured in clinical narratives and that it is necessary to use both clinical narratives and structured EHRs to construct a more complete picture of patients' SBDoH factors.

研究の動機と目的

  • 臨床アウトカムにおける社会的・行動的健康決定要因(SBDoH)の重要性を動機づけ、分析の混乱因子/誤分類を減らす。
  • 最先端のトランスフォーマーNLPモデルが臨床記述からSBDoH概念を抽出する能力を評価する。
  • NLP抽出のSBDoH情報を構造化EHRデータと比較してSBDoHの捕捉の完全性を評価する。
  • 最も性能の高いモデルを肺がんスクリーニングコホートに適用してSBDoH因子を特徴づける。

提案手法

  • 臨床記述からSBDoH概念抽出のために2つのトランスフォーマーNLIモデル、BERTとRoBERTaを評価する。
  • SBDoH抽出に対して厳密F1と緩やかなF1のスコアを用いてモデル性能を測定する。
  • NLP由来のSBDoHデータを、161,933ノートを有する864人のコホートの構造化EHR SBDoHデータと比較する。
  • 記述と構造化記録の間で喫煙、教育、雇用に関する情報の差を分析する。

実験結果

リサーチクエスチョン

  • RQ1トランスフォーマー型NLPモデルは未構造化の臨床記述からSBDoH概念を正確に抽出できるか?
  • RQ2どのモデル(BERTまたはRoBERTa)が臨床テキストにおけるSBDoH抽出でより高い精度を提供するか?
  • RQ3NLPで抽出されたSBDoH情報は、構造化EHR SBDoHデータと比較して完全性の点でどうか?
  • RQ4肺がんコホートで、どのSBDoH要因が記述でよりよく捕捉されるか(例:喫煙、教育、雇用)?

主な発見

  • BERTベースのNLPは厳密F1スコア0.8791、緩やかなF1スコア0.8999を達成した。
  • NLPで抽出されたSBDoH情報は、喫煙、教育、雇用に関して、構造化EHR語彙よりはるかに多くの詳細を検出した。
  • 161,933ノートを持つ864人の肺がん患者のコホートにおいて、記述は構造化EHRを補完してより完全なSBDoH像を形成した。
  • 臨床記述と構造化EHRデータの双方が、患者の包括的なSBDoHプロファイルを構築するために必要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。