QUICK REVIEW

[論文レビュー] A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

Ghadeer Ghosheh, Jin Li|arXiv (Cornell University)|Mar 14, 2022

Generative Adversarial Networks and Image Synthesis参考文献 152被引用数 20

ひとこと要約

構造化されたEHRデータに適用されたGANの包括的な調査で、アプリケーション、評価指標、データソース、プライバシーの考慮事項、および2022年1月までの今後の研究方向を概説します。

ABSTRACT

Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.

研究の動機と目的

電子カルテ（EHRs）におけるGANの利用を動機づけ、調査する。
ターゲットアプリケーションとデータタイプ（表形式 vs. 時系列）ごとにGANベースのEHR研究を分類する。
合成EHRをベンチマークする際に使用される評価指標とデータソースを要約する。
GANの訓練、データの非一様性、プライバシーに関する課題を議論し、今後の研究のベストプラクティスを提案する。

提案手法

Google Scholarから2022年1月までに特定されたGANベースのEHR研究の文献調査。
アプリケーション別の分類: 生成、半教師あり学習/データ拡張、欠測補完、治療効果推定、プライバシー保護。
評価指標とベンチマーク確立のために、レビュー対象の研究で使用されたデータセットを取りまとめる。
EHRデータに関連する GAN アーキテクチャ、損失関数、訓練の安定性課題について議論する。

実験結果

リサーチクエスチョン

RQ1EHRデータ（表形式および時系列）を生成・利用するために適用されたGANアーキテクチャは何ですか？
RQ2合成EHRの品質と有用性を評価するために一般的に使用される評価指標とデータセットは何ですか？
RQ3主な課題（プライバシー、欠測、異質性、訓練の安定性など）は何ですか，以及EHRにおけるGANの推奨実践は？

主な発見

GANは多様なEHRタイプ（表形式および時系列）を生成するほか、半教師あり学習、欠損補完、治療効果推定、プライバシー保護にも利用されている。
さまざまなアーキテクチャ（medGAN, RGAN/RCGAN, EMR-WGAN, SC-GAN, SynTEG, EHR-M-GAN, CorGAN, MI-GAN, GAD, など）は、離散/カテゴリデータ、不規則な時系列、異質な特徴量など、特定のEHRの課題に対処する。
本レビューでは、よく使われる評価要素（Dimension-wise Similarity, Latent Distribution Similarity, Joint Distribution Similarity, Inter-dimensional Relationship Similarity, Privacy Preservation, Data Utility, Qualitative Evaluation）とデータソースを取りまとめる。
よく使用されるデータセットには MIMIC-III, Philips eICU, MAGGIC, MGH? VUMC Synthetic Derivative, NHIRD Taiwan, SEER, および民間臨床データセットが含まれ、データタイプとアクセス制約の幅広さを示している。
プライバシー保護を目的としたGANアプローチ（DPGAN, PATE-GAN, AC-GAN, PART-GANs, ADS-GAN, HealthGAN, HCGAN）が、患者の同定リスクを低減するために積極的に研究されている。
進展にもかかわらず、訓練の安定性は依然としてボトルネックで、モード崩壊や勾配消失などの問題が、WGAN、ミニバッチ識別、アンローリングGAN、ノイズ注入などの手法を促している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。