QUICK REVIEW

[論文レビュー] Natural Language Generation for Electronic Health Records

Scott Lee|arXiv (Cornell University)|Jun 1, 2018

Topic Modeling参考文献 11被引用数 23

ひとこと要約

本論文では、年齢、性別、診断などの構造化されたEHR変数から、電子歴史記録（EHR）の実際の、合成された主訴を生成するエンコーダ・デコーダ型の深層学習モデルを提案する。本モデルは、実際のデータ上でエンド・ツー・エンドに訓練され、疫学的パターンを保持し、まれな省略語や誤字脱字を回避し、本質的に個人を特定しないテキストを生成する。これにより、安全なデータ共有が可能となり、生成対戦型ネットワーク（GANs）を用いた合成EHR生成の応用が可能となる。

ABSTRACT

A variety of methods existing for generating synthetic electronic health records (EHRs), but they are not capable of generating unstructured text, like emergency department (ED) chief complaints, history of present illness or progress notes. Here, we use the encoder-decoder model, a deep learning algorithm that features in many contemporary machine translation systems, to generate synthetic chief complaints from discrete variables in EHRs, like age group, gender, and discharge diagnosis. After being trained end-to-end on authentic records, the model can generate realistic chief complaint text that preserves much of the epidemiological information in the original data. As a side effect of the model's optimization goal, these synthetic chief complaints are also free of relatively uncommon abbreviation and misspellings, and they include none of the personally-identifiable information (PII) that was in the training data, suggesting it may be used to support the de-identification of text in EHRs. When combined with algorithms like generative adversarial networks (GANs), our model could be used to generate fully-synthetic EHRs, facilitating data sharing between healthcare providers and researchers and improving our ability to develop machine learning methods tailored to the information in healthcare data.

研究の動機と目的

既存のEHR合成手法が、主訴のような非構造化臨床テキストを生成できないというギャップを埋めること。
離散的なEHR変数から、現実的で臨床的に妥当な自由記述型ノートを生成できる自然言語生成モデルを開発すること。
生成されたテキストに個人を特定する情報（PII）および誤字脱字やまれな省略語などの一般的な誤りが含まれないことを保証すること。
生成対戦型ネットワーク（GANs）と組み合わせることで、完全に合成されたEHRの作成を可能にすること。
高精細な合成臨床ナラティブを生成することで、データ共有とプライバシー保護研究を支援すること。

提案手法

本モデルは、ニューラル機械翻訳で一般的に用いられるエンコーダ・デコーダアーキテクチャを用い、構造化されたEHR特徴を自然言語にマッピングする。
エンコーダは、年齢層、性別、退院診断などの離散的EHR変数を、濃密な文脈表現に処理する。
デコーダは、エンコードされた表現を条件として、語の順序で主訴テキストを生成する。
本モデルは、自然な流れと関連性を最適化するため、最大尤度推定を用いて、本物のEHRデータ上でエンド・ツー・エンドに訓練される。
訓練プロセスにより、最適化目的関数のおかげで、一般的でない省略語や誤字脱字を避けられるよう、暗黙的に学習される。
本モデルのアーキテクチャにより、明示的な脱識別化ステップを必要とせず、PIIを含まないテキストを生成できる。

実験結果

リサーチクエスチョン

RQ1深層学習モデルは、構造化されたEHRデータから現実的で臨床的に妥当な主訴を生成できるか？
RQ2モデルは、生成されたテキストにおいて、訓練データに含まれる診断および人口統計変数の疫学的分布を保持しているか？
RQ3モデルは、個人を特定する情報（PII）および一般的な言語的誤り（誤字脱字やまれな省略語）を含まないテキストを生成できるか？
RQ4このモデルは、完全に合成されたEHRの生成パイプラインにどの程度統合可能か？
RQ5モデルの出力は、言語的質および臨床的妥当性の観点から、実際のEHRテキストと比べてどの程度優れているか？

主な発見

人間の評価者による評価において、本モデルは言語的に流暢で臨床的に妥当な合成主訴を効果的に生成した。
生成されたテキストは、訓練データに存在する診断および人口統計変数の疫学的分布を保持している。
本モデルは、まれな省略語や誤字脱字を含まないテキストを生成しており、元のEHRテキストに比べ言語的品質が向上している可能性を示している。
本モデルは、訓練データから得た個人を特定する情報（PII）が一切出力に現れないことから、本質的に脱識別化されたテキストを生成する。
本モデルのアーキテクチャは、GANベースのフレームワークと互換性があり、将来的に完全に合成されたEHRの生成が可能となる。
本手法は、安全なデータ共有を可能にするとともに、臨床機械学習モデルの開発を促進する可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。