QUICK REVIEW

[論文レビュー] Self-Supervised Graph Learning with Hyperbolic Embedding for Temporal Health Event Prediction

Chang Lü, Chandan K. Reddy|arXiv (Cornell University)|Jun 8, 2021

Machine Learning in Healthcare参考文献 47被引用数 46

ひとこと要約

Sherbet は、電子歴史記録（EHR）を用いた時系列的健康イベント予測の性能を向上させるために、双曲埋め込みを用いた自己教師ありグラフ学習フレームワークを提案する。病気の階層構造を情報フローを伴う新しい双曲埋め込み法で活用し、重み付きで方向性を持つ病気相互作用グラフを構築し、多段階のアテンションを用いて一般的な解釈可能性とパーソナライズド解釈可能性を両立させる。これにより、ラベルなしデータを完全に活用しながら、公開の EHR データセットにおいて顕著に予測性能が向上する。

ABSTRACT

Electronic Health Records (EHR) have been heavily used in modern healthcare systems for recording patients' admission information to hospitals. Many data-driven approaches employ temporal features in EHR for predicting specific diseases, readmission times, or diagnoses of patients. However, most existing predictive models cannot fully utilize EHR data, due to an inherent lack of labels in supervised training for some temporal events. Moreover, it is hard for existing works to simultaneously provide generic and personalized interpretability. To address these challenges, we first propose a hyperbolic embedding method with information flow to pre-train medical code representations in a hierarchical structure. We incorporate these pre-trained representations into a graph neural network to detect disease complications, and design a multi-level attention method to compute the contributions of particular diseases and admissions, thus enhancing personalized interpretability. We present a new hierarchy-enhanced historical prediction proxy task in our self-supervised learning framework to fully utilize EHR data and exploit medical domain knowledge. We conduct a comprehensive set of experiments and case studies on widely used publicly available EHR datasets to verify the effectiveness of our model. The results demonstrate our model's strengths in both predictive tasks and interpretable abilities.

研究の動機と目的

時系列的イベント予測においてラベル不足のため EHR データが十分に活用されていない問題に対処すること。
医療コードの階層構造（例：ICD-9-CM）を活用して、より良い疾患表現学習を実現すること。
重み付きで方向性を持つ病気相互作用グラフを用いて、病気の合併症や相互作用をモデル化すること。
予測において、疾患レベルのパターン（一般的な解釈可能性）と患者レベルの寄与（パーソナライズド解釈可能性）を同時に提供すること。
入院履歴の階層的予測を用いて、単回入院や最終入院を含むすべての入院データを活用する自己教師ありプロキシタスクを設計すること。

提案手法

ICD-9-CM コードの階層構造を活用し、情報フローを伴う双曲埋め込み法を提案することで、医療コード表現の事前学習を実現する。
患者の入院記録における共起パターンに基づき、重み付きで方向性を持つ病気相互作用グラフを構築する。
病気相互作用グラフ上でグラフニューラルネットワーク（GNN）を用いて、病気の合併症パターンと隠れ表現を学習する。
コードレベル（疾患）および入院レベルの寄与を計算する多段階アテンション機構を導入し、予測におけるパーソナライズド解釈可能性を実現する。
自己教師あり学習において、階層を強化した歴史的診断予測プロキシタスクを設計し、単回入院や最終入院を含むすべての入院にラベルを生成する。
自己教師あり事前学習を、診断予測などの時系列的予測タスク向けの微調整モジュールと統合する。

実験結果

リサーチクエスチョン

RQ1階層的に歴史的診断を予測する自己教師ありプロキシタスクは、ラベルなし EHR データの活用を改善できるか？
RQ2双曲埋め込みは、医療コードの階層構造を効果的にモデル化するとともに、意味的類似性を保持できるか？
RQ3重み付きで方向性を持つ病気相互作用グラフは、臨床的に意味のある病気の合併症を捉えられるか？
RQ4多段階アテンション機構は、EHR 基盤の予測において、同時に一般的な解釈可能性とパーソナライズド解釈可能性を提供できるか？
RQ5階層構造、病気相互作用、自己教師あり事前学習の統合は、時系列的健康イベント予測の性能を向上させるか？

主な発見

Sherbet は、診断予測のための複数の EHR ベンチマークデータセットで最先端の性能を達成し、既存の教師ありおよび自己教師ありモデルを上回る。
t-SNE 視覚化により、高血圧と心不全などの関連疾患が双曲空間内で近接して配置されていることから、病気の合併症を効果的に捉えていることが示された。
糖尿病の1型と2型の異なるサブタイプを、それぞれ異なる合併症に基づいて区別できており、意味のある表現学習が実現していることが示された。
多段階アテンションの視覚化により、特定の疾患や入院の予測への寄与度が定量的に評価されており、高いアテンション重みが臨床的に妥当な因果経路と一致していることが確認された。
自己教師ありプロキシタスクにより、単回入院や最終入院を含む EHR データのすべてが活用可能となり、事前学習用に合成ラベルが生成された。
ケーススタディにより、Sherbet が疾患の共存パターン（一般的な解釈可能性）と、過去の入院が将来の診断に与える寄与（パーソナライズド解釈可能性）を両方提供できることを示し、臨床的信頼性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。