[論文レビュー] Med-BERT: pre-trained contextualized embeddings on large-scale structured electronic health records for disease prediction
Med-BERT は BERT フレームワークを大規模な構造化 EHR データに適用して、文脈化埋め込みを生成し、特に小さなファインチューニングセットで病気予測性能を向上させる。
Deep learning (DL) based predictive models from electronic health records (EHR) deliver impressive performance in many clinical tasks. Large training cohorts, however, are often required to achieve high accuracy, hindering the adoption of DL-based models in scenarios with limited training data size. Recently, bidirectional encoder representations from transformers (BERT) and related models have achieved tremendous successes in the natural language processing domain. The pre-training of BERT on a very large training corpus generates contextualized embeddings that can boost the performance of models trained on smaller datasets. We propose Med-BERT, which adapts the BERT framework for pre-training contextualized embedding models on structured diagnosis data from 28,490,650 patients EHR dataset. Fine-tuning experiments are conducted on two disease-prediction tasks: (1) prediction of heart failure in patients with diabetes and (2) prediction of pancreatic cancer from two clinical databases. Med-BERT substantially improves prediction accuracy, boosting the area under receiver operating characteristics curve (AUC) by 2.02-7.12%. In particular, pre-trained Med-BERT substantially improves the performance of tasks with very small fine-tuning training sets (300-500 samples) boosting the AUC by more than 20% or equivalent to the AUC of 10 times larger training set. We believe that Med-BERT will benefit disease-prediction studies with small local training datasets, reduce data collection expenses, and accelerate the pace of artificial intelligence aided healthcare.
研究の動機と目的
- 構造化 EHR データの事前学習済み文脈化埋め込みを用いて、ラベル付きデータが限られている場合の病気予測を改良する動機付け。
- 大規模な EHR コーパスを活用して、下流の臨床予測タスクへ転移可能な表現を事前学習する。
- データが乏しい設定で特定の疾病の予測精度の向上を示す。
提案手法
- 非常に大規模な EHR コホート(28,490,650 人の患者)から構造化診断データへ BERT フレームワークを適用。
- 構造化 EHR データで文脈化埋め込みを事前学習し、下流タスクで微調整する。
- 二つの臨床データベースから糖尿病患者の心不全と膵臓癌の二つの疾病予測タスクを評価。
- 事前学習の利得を定量化するために非事前学習ベースラインと比較。
- 様々なファインチューニングデータサイズでのAUCの改善を報告し、特に小データの利点を強調。
実験結果
リサーチクエスチョン
- RQ1構造化 EHR データで事前学習された Med-BERT は非事前学習モデルと比較して病気予測性能を改善できるか?
- RQ2ファインチューニングデータが乏しい場合(例:300~500サンプル)に事前学習が性能に与える影響は?
- RQ3利得は異なる疾病や臨床データベースに一般化するか?
主な発見
- Med-BERT は予測精度を大幅に改善し、タスク全体でAUCを2.02~7.12%向上させた。
- 事前学習済みの Med-BERT は非常に小さなファインチューニングセット(300~500サンプル)での性能を大幅に改善し、AUCを20%以上向上させた。
- 小データの利得は、10倍の大規模なトレーニングセットで得られるものと同等に見える。
- このアプローチは局所の小規模データセットでの病気予測研究を支援し、データ収集コストを削減できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。