QUICK REVIEW

[論文レビュー] Highrisk Prediction from Electronic Medical Records via Deep Attention Networks

You Jin Kim, Yun-Geun Lee|arXiv (Cornell University)|Nov 30, 2017

Machine Learning in Healthcare参考文献 17被引用数 20

ひとこと要約

本論文では、画像検査や血液検査を必要とせず、ICD-10コードおよび薬剤コードからなるシンボリック電子歴史記録（EMR）のみを用いて高リスク虚血性疾患発症を予測する深層注意ネットワークMeHPANを提案する。双方向GRU（R-MeHPAN）および1次元畳み込み（C-MeHPAN）アーキテクチャを採用し、マルチタスク学習と注意メカニズムを組み合わせ、SVMおよびランダムフォレストを上回る優れたAUC（0.851）とF1スコア（0.746）を達成。C-MeHPANはR-MeHPANに比べ10倍高速な学習を実現した。

ABSTRACT

Predicting highrisk vascular diseases is a significant issue in the medical domain. Most predicting methods predict the prognosis of patients from pathological and radiological measurements, which are expensive and require much time to be analyzed. Here we propose deep attention models that predict the onset of the high risky vascular disease from symbolic medical histories sequence of hypertension patients such as ICD-10 and pharmacy codes only, Medical History-based Prediction using Attention Network (MeHPAN). We demonstrate two types of attention models based on 1) bidirectional gated recurrent unit (R-MeHPAN) and 2) 1D convolutional multilayer model (C-MeHPAN). Two MeHPAN models are evaluated on approximately 50,000 hypertension patients with respect to precision, recall, f1-measure and area under the curve (AUC). Experimental results show that our MeHPAN methods outperform standard classification models. Comparing two MeHPANs, R-MeHPAN provides more better discriminative capability with respect to all metrics while C-MeHPAN presents much shorter training time with competitive accuracy.

研究の動機と目的

電子歴史記録（EMR）からのシンボリック医療履歴シーケンス（ICD-10コードおよび薬剤コード）のみを用いて、高リスク虚血性疾患発症を予測する深層学習モデルの開発。画像検査や血液検査のコストを回避する。
縦断的患者履歴における重要な診断および薬剤シーケンスに注目するため、注意メカニズムを活用して予測性能を向上させること。
R-MeHPAN（RNNベース）およびC-MeHPAN（1次元CNNベース）の2つのアーキテクチャを、予測精度および学習効率の観点から比較すること。
50,000名の高血圧患者の実世界EMRデータを用いてモデルを評価し、臨床予測において一般的な不均衡データ状況に焦点を当てる。

提案手法

ICD-10コードおよび薬剤コードの埋め込みシーケンスを用い、診断履歴および薬剤履歴のための別々のモジュールを備えた二重ブランチの注意ネットワークであるMeHPANを提案する。
R-MeHPANでは、時間ステップにわたる注目を用いた双方向ゲート付き再帰ユニット（GRU）を用い、医療履歴の順序依存性をモデル化する。
C-MeHPANでは、1次元畳み込み層を用いて順序データを高速かつ並列処理可能に処理し、ゲート付き線形ユニット（GLU）を用いて非線形変換を実現する。
2つの出力ヘッド（二値分類：高リスク／非高リスク、多クラス分類：循環器疾患、脳血管疾患、または疾患なし）を備えたマルチタスク学習を適用する。
C-MeHPANに3種類の注意メカニズムを実装：時間ステップの和、後期ステップに重みを置いた加重和、および最終時間ステップのプーリングによるコンテキストベクトルの生成。
訪問日および薬剤投与日から導出される対数変換済み期間シーケンス（DURおよびMD_DUR）を用い、疾患の時間的進行を符号化する。

実験結果

リサーチクエスチョン

RQ1ICD-10コードおよび薬剤コードからなるシンボリック医療履歴のみで学習された深層注意ネットワークは、従来の機械学習モデルを上回る高リスク虚血性疾患発症予測性能を示せるか？
RQ2R-MeHPAN（GRUベース）とC-MeHPAN（1次元CNNベース）のアーキテクチャは、予測性能および学習効率においてどのように比較されるか？
RQ3C-MeHPANアーキテクチャにおいて、異なる注意メカニズムの実装（和、加重和、最終ステップ）がモデル性能に与える影響は何か？
RQ4マルチタスク学習は、EMRからの高リスク虚血性疾患予測において一般化性能および誤差補正能力をどの程度向上させるか？

主な発見

R-MeHPANは全モデルの中で最高のAUC（0.851）とF1スコア（0.746）を達成し、SVMおよびランダムフォレストを全指標で上回った。
C-MeHPANは、AUC 0.828（加重和注意）およびF1スコア 0.702という競争力のある性能を示したが、R-MeHPANに比べ10倍高速に学習が可能であった。
C-MeHPANにおける加重和注意法が、精度、再現率、F1スコア、AUCの全指標で最良の性能を示し、和および最終ステップ法を上回った。
SVMおよびランダムフォレストは高い精度を示したが、再現率が極めて低く（0.022および0.437）なったため、不均衡データ状況下での高リスク症例の検出能力が著しく劣っていた。
R-MeHPANの学習には65.5分を要したが、加重和注意法を用いたC-MeHPANは7.08分で学習完了し、顕著な高速化が実現された。
マルチタスク学習により、二値分類および多クラス分類ヘッド間で誤差フィードバックが可能となり、全体のモデルの頑健性および予測精度が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。