[논문 리뷰] A Study of Social and Behavioral Determinants of Health in Lung Cancer Patients Using Transformers-based Natural Language Processing Models
본 연구는 BERT와 RoBERTa 트랜스포머 기반 NLP 모델을 활용하여 SBDoH 개념을 임상 서술에서 추출하고, 서술이 구조화된 EHR보다 폐암 코호트에서 더 많은 세부 정보를 추가한다는 것을 보여준다.
Social and behavioral determinants of health (SBDoH) have important roles in shaping people's health. In clinical research studies, especially comparative effectiveness studies, failure to adjust for SBDoH factors will potentially cause confounding issues and misclassification errors in either statistical analyses and machine learning-based models. However, there are limited studies to examine SBDoH factors in clinical outcomes due to the lack of structured SBDoH information in current electronic health record (EHR) systems, while much of the SBDoH information is documented in clinical narratives. Natural language processing (NLP) is thus the key technology to extract such information from unstructured clinical text. However, there is not a mature clinical NLP system focusing on SBDoH. In this study, we examined two state-of-the-art transformer-based NLP models, including BERT and RoBERTa, to extract SBDoH concepts from clinical narratives, applied the best performing model to extract SBDoH concepts on a lung cancer screening patient cohort, and examined the difference of SBDoH information between NLP extracted results and structured EHRs (SBDoH information captured in standard vocabularies such as the International Classification of Diseases codes). The experimental results show that the BERT-based NLP model achieved the best strict/lenient F1-score of 0.8791 and 0.8999, respectively. The comparison between NLP extracted SBDoH information and structured EHRs in the lung cancer patient cohort of 864 patients with 161,933 various types of clinical notes showed that much more detailed information about smoking, education, and employment were only captured in clinical narratives and that it is necessary to use both clinical narratives and structured EHRs to construct a more complete picture of patients' SBDoH factors.
연구 동기 및 목표
- 임상 결과에서 건강의 사회적 및 행동적 결정요인(SBDoH)의 중요성을 강조하고 분석에서 교란 및 오분류를 줄이는 것을 목표로 한다.
- 최신 트랜스포머 NLP 모델이 임상 서술에서 SBDoH 개념을 추출하는 능력을 평가한다.
- NLP로 추출된 SBDoH 정보를 구조화된 EHR 데이터와 비교하여 SBDoH 포착의 완전성을 평가한다.
- 최고 성능 모델을 폐암 선별 코호트에 적용하여 SBDoH 요인을 특성화한다.
제안 방법
- 임상 서술에서 SBDoH 개념 추출을 위해 두 가지 트랜스포머 NLI 모델, BERT와 RoBERTa를 평가한다.
- SBDoH 추출에 대해 엄격한 F1 점수와 관대한 F1 점수를 사용하여 모델 성능을 측정한다.
- 864명의 환자와 161,933개의 노트를 포함한 코호트에서 NLP로 도출된 SBDoH 데이터를 구조화된 EHR SBDoH 데이터와 비교한다.
- 서술 기록과 구조화된 기록 간 흡연, 교육 및 고용 정보 포착의 차이를 분석한다.
실험 결과
연구 질문
- RQ1트랜스포머 기반 NLP 모델이 비구조적 임상 서술에서 SBDoH 개념을 정확하게 추출할 수 있는가?
- RQ2어떤 모델(BERT 또는 RoBERTa)이 임상 텍스트에서 SBDoH 추출에 더 높은 정확도를 제공하는가?
- RQ3NLP로 추출된 SBDoH 정보가 구조화된 EHR SBDoH 데이터와 완전성 측면에서 어떻게 비교되는가?
- RQ4폐암 코호트에서 서술(예: 흡연, 교육, 고용)으로 더 잘 포착되는 SBDoH 요인은 무엇인가?
주요 결과
- BERT 기반 NLP가 각각 0.8791(엄격) 및 0.8999(관대) F1 점수를 달성했다.
- NLP로 추출된 SBDoH 정보는 흡연, 교육, 고용에 대해 구조화된 EHR 어휘보다 훨씬 더 많은 세부 정보를 탐지했다.
- 161,933개의 노트를 가진 864명의 폐암 환자 코호트에서 서술은 구조화된 EHR을 보완하여 더 완전한 SBDoH 그림을 형성했다.
- 환자 포괄적 SBDoH 프로파일을 구성하려면 임상 서술과 구조화된 EHR 데이터 모두가 필요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.