QUICK REVIEW

[論文レビュー] Generating Synthetic but Plausible Healthcare Record Datasets

Laura J. Avino, Matteo Ruffini|arXiv (Cornell University)|Jul 4, 2018

Generative Adversarial Networks and Image Synthesis参考文献 5被引用数 24

ひとこと要約

本論文は、モーメント法に基づく潜在変数モデルを用いて、合成的ではあるが現実的である医療記録データセットを生成する新規な手法を提案する。具体的には、二値のICD-9診断特徴を用いたナイーブベイズモデルを採用している。GANベースの手法（例：MedGan）がモード崩壊や解釈不能性に苦しむのとは異なり、本手法はMIMIC-IIIおよび実世界の心不全データセットにおいて、顕著に低いMMDスコアを達成し、ランダムフォレストによる本物のデータとの区別が困難であることが示され、グローバルな現実性と解釈可能性の両面で優れた性能を示している。

ABSTRACT

Generating datasets that "look like" given real ones is an interesting tasks for healthcare applications of ML and many other fields of science and engineering. In this paper we propose a new method of general application to binary datasets based on a method for learning the parameters of a latent variable moment that we have previously used for clustering patient datasets. We compare our method with a recent proposal (MedGan) based on generative adversarial methods and find that the synthetic datasets we generate are globally more realistic in at least two senses: real and synthetic instances are harder to tell apart by Random Forests, and the MMD statistic. The most likely explanation is that our method does not suffer from the "mode collapse" which is an admitted problem of GANs. Additionally, the generative models we generate are easy to interpret, unlike the rather obscure GANs. Our experiments are performed on two patient datasets containing ICD-9 diagnostic codes: the publicly available MIMIC-III dataset and a dataset containing admissions for congestive heart failure during 7 years at Hospital de Sant Pau in Barcelona.

研究の動機と目的

プライバシー保護された研究やベンチマークのため、合成的ではあるが妥当な医療データセットを生成する課題に対処すること。
医療記録の合成文脈において、特にモード崩壊と解釈不能性という問題を抱えるGANベースの手法の限界を克服すること。
実患者データのグローバル統計的性質を保持しつつ、解釈可能でスケーラブルな生成モデルを開発すること。
MIMIC-IIIおよび病院・サン・パウ病院の虚血性心不全データセットを含む、実世界の二値ICD-9コード化患者データセットに対して、本手法を評価すること。

提案手法

本手法は、患者記録をICD-9診断コードを表す二値特徴としてモデル化し、ナイーブベイズ構造を持つ潜在変数モデルを仮定する。
潜在変数モデルのパラメータ推定にモーメント法を用い、高次モーメントを活用して潜在的なクラスタ構造を推定する。
潜在クラスタ数（k）はモデルの複雑さを制御し、現実性と一般化性能のバランスを取るために調整される。
生成モデルは、潜在クラスタ上で周辺化することで、診断の学習済み結合分布からサンプリングする。
計算が効率的で並列処理に適しているが、現在の実装ではGPUアクセcelerationは未対応である。
GANの敵対的訓練ループを回避し、安定的かつ解釈可能な生成を実現するため、閉形式のモーメント推定に依存する。

実験結果

リサーチクエスチョン

RQ1モーメントに基づく潜在変数モデルは、MedGanのようなGANベースの手法よりも、グローバルに現実的である合成医療記録を生成できるか？
RQ2本手法は、医療データ生成におけるGANに見られるモード崩壊問題を回避できるか？
RQ3ランダムフォレストのような標準的な機械学習分類器を用いて、合成データと本物のデータをどれほど区別できるか？
RQ4MMD統計量で測定した場合、本手法は実患者データの統計的性質をどの程度保持しているか？
RQ5GANのブラックボックス的性質とは対照的に、本生成モデルは解釈可能であるか？

主な発見

MIMIC-IIIデータセットでは、100個の潜在クラスタを用いた本手法がMMDスコア0.01を達成し、MedGanの0.50およびベースラインの0.12を顕著に下回った。
ランダムフォレスト分類器による本物と合成データの区別精度は、100クラスタで59%に低下したが、MedGanでは82%、ベースラインでは86%であった。
虚血性心不全データセットでは、本手法が100クラスタでMMD -0.01を達成したのに対し、MedGanはMMD 3.92を示し、本物のデータにはるかに近い類似性を示した。
両方のデータセットにおいて、本手法は精度、再現率、適合率、特異度のすべての評価指標でMedGanおよびベースラインを上回った。
本手法は、潜在クラスタ数の増加に伴い性能が一貫して向上するという優れたロバスト性と安定性を示したのに対し、MedGanはMMD性能が劣化した。
本生成モデルは明示的なパラメトリック形式を有するため、GANの不透明な性質とは対照的に解釈可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。