Skip to main content
QUICK REVIEW

[論文レビュー] A Study into patient similarity through representation learning from medical records

Hoda Memarzadeh, Nasser Ghadiri|arXiv (Cornell University)|Apr 29, 2021
Machine Learning in Healthcare参考文献 54被引用数 7
ひとこと要約

本稿では、UMLSアノテーション付きエンティティで強化された時系列ツリー構造を用いて、非構造化臨床ノートと構造化EMRデータを統合する、UTTreeおよびUTTree-Hという新規の患者表現モデルを提案する。過去および現在の医療イベントを捉えるために再ラベル化戦略を適用することで、時系列に基づく埋め込み表現を生成し、患者の類似度および死亡予測において、MSE、精度、NDCGスコアの面でベースラインを上回る性能を発揮する。

ABSTRACT

Patient similarity assessment, which identifies patients similar to a given patient, can help improve medical care. The assessment can be performed using Electronic Medical Records (EMRs). Patient similarity measurement requires converting heterogeneous EMRs into comparable formats to calculate their distance. While versatile document representation learning methods have been developed in recent years, it is still unclear how complex EMR data should be processed to create the most useful patient representations. This study presents a new data representation method for EMRs that takes the information in clinical narratives into account. To address the limitations of previous approaches in handling complex parts of EMR data, an unsupervised method is proposed for building a patient representation, which integrates unstructured data with structured data extracted from patients' EMRs. In order to model the extracted data, we employed a tree structure that captures the temporal relations of multiple medical events from EMR. We processed clinical notes to extract symptoms, signs, and diseases using different tools such as medspaCy, MetaMap, and scispaCy and mapped entities to the Unified Medical Language System (UMLS). After creating a tree data structure, we utilized two novel relabeling methods for the non-leaf nodes of the tree to capture two temporal aspects of the extracted events. By traversing the tree, we generated a sequence that could create an embedding vector for each patient. The comprehensive evaluation of the proposed method for patient similarity and mortality prediction tasks demonstrated that our proposed model leads to lower mean squared error (MSE), higher precision, and normalized discounted cumulative gain (NDCG) relative to baselines.

研究の動機と目的

  • 非構造化臨床ノートと構造化EMRデータを効果的に統合する統一された患者表現モデルの開発を目的とする。
  • 特に過去および現在の状態を含む医療イベント間の時系列的関係を、ツリー型データ構造を用いてモデル化することを目的とする。
  • EMRシーケンスから文脈に配慮した低次元埋め込みベクトルを生成することで、患者の類似度評価および死亡予測の精度を向上させることを目的とする。
  • 提案手法を実世界のデータセット上で既存のベースラインと比較し、主要な下流タスク指標における改善を示すこと。

提案手法

  • 本手法は、EMRイベントからツリー型データ構造を構築し、ノードとして医療エンティティ(例:疾患、症状)をNLPツール(medspaCy、MetaMap、scispaCyなど)を用いて抽出する。
  • 抽出されたエンティティは、意味的整合性および標準化を確保するため、統合医療言語システム(UMLS)にマッピングされる。
  • 非リーフノードに対して、医療イベントの共起および時系列的順序を符号化する2つの新規な再ラベル化戦略が適用される。
  • ツリーを走査することで、時系列的依存関係を保持した順序付き表現が生成され、これによりPV-DMなどの表現学習モデルの入力として使用される。
  • 強化されたUTTree-Hバージョンは、過去の疾患の有無に基づいてノードラベルを調整することで、過去の医療歴を明示的に組み込む。
  • 次元削減(PCA)および下流分類器(XGBoost、SVM、ランダムフォレスト)を用いて、埋め込み品質の死亡予測への応用を評価する。

実験結果

リサーチクエスチョン

  • RQ1非構造化および構造化EMRデータを、一貫性のある患者表現に効果的に統合する方法は何か?
  • RQ2医療イベント間の時系列的関係をモデル化することは、患者の類似度および予測性能にどのような影響を与えるか?
  • RQ3表現に過去の医療歴を組み込むことで、歴史的文脈を無視するモデルと比較して、下流タスクの精度が向上するか?
  • RQ4ツリーのノードに適用された提案された再ラベル化戦略は、生成された埋め込みシーケンスの品質にどのような影響を与えるか?

主な発見

  • UTTree-Hモデルは、すべてのベースライン手法と比較して、患者の類似度タスクにおける平均二乗誤差(MSE)が低く、統計的に有意であった(p < 0.01)。
  • モデルは、患者の類似度ランク付けにおいて、より高い精度および正規化済み累積利益(NDCG)を示し、リtrieval品質の向上を示している。
  • 患者歴から8種類以上の生物医学的概念が抽出された場合、UTTree-Hモデルは誤差低減の面で一貫して他のアプローチを上回った。
  • 提案された埋め込みに基づくXGBoost分類器は、すべてのデータセットで中央値精度が最も高く、ボックスプロットにおける四分位範囲が狭く、安定した性能を示した。
  • Wilcoxon符号順位検定により、UTTreeとベースラインとの間の性能差は統計的に有意であった(p < 0.01)が、1つの比較はアスタリスクで示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。