[論文レビュー] Model-assisted cohort selection with bias analysis for generating large-scale cohorts from the EHR for oncology research
本論文は、Bias Analysis付きのModel-Assisted Cohort Selection (MACS) を用いて、EHRに基づく大型腫瘍学コホートを効率的に生成し、高い予測性能と後続分析でのバイアス検出不能を実証する。
Objective Electronic health records (EHRs) are a promising source of data for health outcomes research in oncology. A challenge in using EHR data is that selecting cohorts of patients often requires information in unstructured parts of the record. Machine learning has been used to address this, but even high-performing algorithms may select patients in a non-random manner and bias the resulting cohort. To improve the efficiency of cohort selection while measuring potential bias, we introduce a technique called Model-Assisted Cohort Selection (MACS) with Bias Analysis and apply it to the selection of metastatic breast cancer (mBC) patients. Materials and Methods We trained a model on 17,263 patients using term-frequency inverse-document-frequency (TF-IDF) and logistic regression. We used a test set of 17,292 patients to measure algorithm performance and perform Bias Analysis. We compared the cohort generated by MACS to the cohort that would have been generated without MACS as reference standard, first by comparing distributions of an extensive set of clinical and demographic variables and then by comparing the results of two analyses addressing existing example research questions. Results Our algorithm had an area under the curve (AUC) of 0.976, a sensitivity of 96.0%, and an abstraction efficiency gain of 77.9%. During Bias Analysis, we found no large differences in baseline characteristics and no differences in the example analyses. Conclusion MACS with bias analysis can significantly improve the efficiency of cohort selection on EHR data while instilling confidence that outcomes research performed on the resulting cohort will not be biased.
研究の動機と目的
- EHRデータを用いた腫瘍学アウトカム研究を動機づけ、非構造化データによるランダムでないコホート選択の問題に対処する。
- 下流の分析を信頼できるよう、バイアス評価を組み込んだスケーラブルなコホート選択法を開発する。
- この手法を転移性乳がん(mBC)に適用し、効率性とバイアスの封じ込めを示す。
提案手法
- 17,263人の患者を対象にTF-IDF + ロジスティック回帰モデルを訓練し、対象コホートを特定する。
- 17,292人のホールドアウトテストセットで性能を評価する。
- 多数の臨床・人口統計変数にわたり、MACS生成コホートと基準標準を比較するバイアス分析を実施する。
- MACSコホートと非MACSコホート間の変数分布を比較する。
- (i) MACSは高い識別力を達成し、(ii) バイアスが例の分析を実質的に変えないことを示す。
実験結果
リサーチクエスチョン
- RQ1MACSはEHRデータからのコホート選択の効率を腫瘍学研究において改善できるか?
- RQ2MACSは基準標準と比較して基礎特性に検出可能なバイアスを生じさせるか?
- RQ3MACS生成コホートで実施された分析は、バイアスなしの基準分析と一致する結果を示すか?
主な発見
- MACSセレクターのAUCは0.976で、強い識別力を示す。
- 感度96.0%は、ターゲットコホートの真陽性を高く捕捉することを示す。
- 抽象化効率の77.9%の向上は、実質的なワークフロー改善を示す。
- バイアス分析により、MACSと基準コホート間で基礎特性の大きな差はないことが示された。
- MACS由来コホートと基準分析との例分析で差は見られなかった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。