[論文レビュー] CEHR-BERT: Incorporating temporal information from structured EHR data to improve prediction tasks
CEHR-BERT は、人工的な時間トークンと時間概念埋め込み、さらに Visit Type Prediction 目的を用いて、構造化EHRデータからの時系列情報を BERT フレームワークに統合し、複数の疾患予測タスクを改善する。
Embedding algorithms are increasingly used to represent clinical concepts in healthcare for improving machine learning tasks such as clinical phenotyping and disease prediction. Recent studies have adapted state-of-the-art bidirectional encoder representations from transformers (BERT) architecture to structured electronic health records (EHR) data for the generation of contextualized concept embeddings, yet do not fully incorporate temporal data across multiple clinical domains. Therefore we developed a new BERT adaptation, CEHR-BERT, to incorporate temporal information using a hybrid approach by augmenting the input to BERT using artificial time tokens, incorporating time, age, and concept embeddings, and introducing a new second learning objective for visit type. CEHR-BERT was trained on a subset of Columbia University Irving Medical Center-York Presbyterian Hospital's clinical data, which includes 2.4M patients, spanning over three decades, and tested using 4-fold cross-validation on the following prediction tasks: hospitalization, death, new heart failure (HF) diagnosis, and HF readmission. Our experiments show that CEHR-BERT outperformed existing state-of-the-art clinical BERT adaptations and baseline models across all 4 prediction tasks in both ROC-AUC and PR-AUC. CEHR-BERT also demonstrated strong transfer learning capability, as our model trained on only 5% of data outperformed comparison models trained on the entire data set. Ablation studies to better understand the contribution of each time component showed incremental gains with every element, suggesting that CEHR-BERT's incorporation of artificial time tokens, time and age embeddings with concept embeddings, and the addition of the second learning objective represents a promising approach for future BERT-based clinical embeddings.
研究の動機と目的
- 構造化EHRデータの時系列構造を利用して下流予測を改善することを動機付ける。
- 時間を人工的な時間トークンと時間埋め込みで符号化するBERTベースのモデル CEHR-BERT を開発する。
- 予測性能を高めるための第二の事前学習目的(Visit Type Prediction)を導入する。
- 大規模な CUIMC-NYP OMOP データセットを用いて複数の臨床予測タスクで CEHR-BERT を評価する。
提案手法
- 患者の履歴を VS/VE トークンと訪問間の人工的な時間トークン(ATT)を用いて訪問として表現する。
- 概念埋め込みを時間埋め込みおよび年齢埋め込みと連結し、FC 層を介して時間概念埋め込みを形成する。
- Masked Language Modeling(MLM)と二次的な Visit Type Prediction(VTP)目的で事前学習を行う。
- CEHR-BERT を BEHRT、MedBERT、およびベースラインと比較し、4つの予測タスクで4分割評価を実施する。
- 時間トークン、時間/年齢埋め込み、および VTP の寄与を評価するアブレーションを実施する。
実験結果
リサーチクエスチョン
- RQ1人工的な時間トークンと時間埋め込みを通じて時系列情報を組み込むことで、構造化EHRデータの BERT ベース表現を改善できるか?
- RQ2訪問タイプ予測目的は下流の疾患予測性能をさらに向上させるか?
- RQ3CEHR-BERT は既存の EHR-BERT 適応(BEHRT、MedBERT)および従来のベースラインと比べて複数の予測タスクでどうか?
- RQ4CEHR-BERT はラベル付きデータが限られた Few-shot 学習シナリオで効果的か?
主な発見
- CEHR-BERT は4つの予測タスク(t2dm HF、HF 入院、退院時の自宅退院、死亡)ですべて BEHRT、MedBERT、およびベースラインを上回った。
- t2dm HF において、CEHR-BERT は AUC 80.7% および PR-AUC 32.3% を達成した。
- HF 再入院において、CEHR-BERT は AUC 66.3% および PR-AUC 38.6% を達成した。
- 退院時の自宅退院と死亡アウトカムで、CEHR-BERT は AUC 94.6% および PR-AUC 52.7% を達成した。
- 入院予測において、CEHR-BERT は AUC 75.9% および PR-AUC 31.1% を達成した。
- Few-shot 学習では、訓練データの5% で CEHR-BERT が競合他社を凌ぐ(例:t2dm HF の AUC ~0.78、PR-AUC ~0.29)
- アブレーションにより、時間トークン、時間/年齢埋め込み、および VTP 目的の段階的な利得が示され、それらの組み合わせの価値が認められた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。