QUICK REVIEW

[論文レビュー] Exploiting Convolutional Neural Network for Risk Prediction with Medical Feature Embedding

Zhengping Che, Yu Cheng|arXiv (Cornell University)|Jan 25, 2017

Machine Learning in Healthcare参考文献 10被引用数 39

ひとこと要約

本論文は、電子的健康記録（EHR）からのリスク予測を向上させるために、学習された医療特徴埋め込みを組み込んだ畳み込みニューラルネットワーク（CNN）モデルを提案する。医療イベントをワード2ベクトルにインspiredした手法で密度行列表現に変換し、1次元畳み込みを時系列に適用することで、局所的かつマルチスケールの時系列依存性を捉える。糖尿病および心不全予測において、特に早期診断の場面で最先端の性能を達成した。

ABSTRACT

The widespread availability of electronic health records (EHRs) promises to usher in the era of personalized medicine. However, the problem of extracting useful clinical representations from longitudinal EHR data remains challenging. In this paper, we explore deep neural network models with learned medical feature embedding to deal with the problems of high dimensionality and temporality. Specifically, we use a multi-layer convolutional neural network (CNN) to parameterize the model and is thus able to capture complex non-linear longitudinal evolution of EHRs. Our model can effectively capture local/short temporal dependency in EHRs, which is beneficial for risk prediction. To account for high dimensionality, we use the embedding medical features in the CNN model which hold the natural medical concepts. Our initial experiments produce promising results and demonstrate the effectiveness of both the medical feature embedding and the proposed convolutional neural network in risk prediction on cohorts of congestive heart failure and diabetes patients compared with several strong baselines.

研究の動機と目的

多様で不規則でノイズの多い縦断的EHRデータから意味のある臨床的表現を抽出する課題に対処する。
EHRにおける高次元性と時系列の不規則性を、文脈に配慮した低次元の医療特徴埋め込みを学習することで克服する。
ディープラーニングを用いて、糖尿病や虚血性心不全のような慢性疾患のリスク予測性能を向上させる。
最小限の観測期間での時系列依存性のモデリングにより、早期リスク予測を可能にする。
固定埋め込みと共同微調整された埋め込みの両方を評価し、下流タスクへの適応性を検証する。

提案手法

EHR時系列データ上で、ワード2ベクトルの連続的袋（CBOW）変種を用いて医療特徴埋め込みを学習し、各医療イベントを「単語」とみなす。
各患者のEHRを、$ T_p \times D $ のサイズの時系列埋め込み行列として表現する。ここで、$ T_p $ はイベント数、$ D $ は埋め込み次元である。
時系列方向にさまざまなサイズ（例：2, 3）の1次元畳み込みフィルタを適用し、局所的およびマルチスケールの時系列依存性を捉える。
時系列方向にマックスプーリングを適用して、固定長のベクトル表現を生成し、異なる記録長を持つ患者間での一般化を可能にする。
学習済み埋め込みと全結合のソフトマックス層を組み合わせ、疾患リスクのエンドツーエンド二値分類を実行する。
CNN学習中に固定埋め込みと共同微調整された埋め込みの両方を評価し、下流タスクへの適応性を評価する。

実験結果

リサーチクエスチョン

RQ1学習済み医療特徴埋め込みは、EHRデータにおいて、元の特徴やランダム埋め込みと比較してリスク予測性能を向上させるか？
RQ21次元CNNモデルは、縦断的EHRデータにおける局所的およびマルチスケールの時系列依存性を、臨床的リスク予測にどの程度捉えることができるか？
RQ3本提案フレームワークは、限られた歴史的データしか利用できない状況でも、早期リスク予測にどの程度有効か？
RQ4文脈に配慮した医療埋め込みを統合することで、多様な機械学習ベースライン（例：ロジスティック回帰、SVM、ランダムフォレスト）のモデル性能が向上するか？
RQ5学習済み埋め込みの集約戦略（平均、和、マックス）の違いが、下流の予測精度にどのように影響するか？

主な発見

提案されたCNNモデルに学習済み医療特徴埋め込みを組み合わせた結果、心不全予測タスクでAUROC 0.9289を達成し、すべてのベースラインを大きく上回った。
糖尿病予測においては、W2v-Sum埋め込み戦略を用いることでAUROC 0.9802を達成し、元の袋の単語特徴を用いた最良のベースライン（AUROC 0.9681）を上回った。
早期予測設定でも高い性能を維持した：180日間の保留期間を設けた糖尿病予測では、92.77％の正確性と0.9716のAUROCを達成した。
学習済み埋め込みは、複数のベースライン全体で一貫して性能向上をもたらしたが、特にロジスティック回帰やSVMでは顕著であり、ランダムフォレストではその影響が最小限にとどまった（離散的特徴選択機構のため）。
学習済み埋め込みとマルチスケール畳み込みフィルタの組み合わせにより、時系列モデリングが顕著に向上し、W2v-Sum戦略が心不全予測で最高のF1スコア0.8056を記録した。
予防診断データがたった90日分でも、心不全予測で83.29％の正確性と0.8889のAUROCを達成し、早期段階の予測においても高いロバスト性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。