[论文解读] Natural Language Generation for Electronic Health Records
本文提出一种编码器-解码器深度学习模型,通过年龄、性别和诊断等结构化EHR变量,生成逼真、合成的电子健康记录(EHR)主诉。该模型在真实数据上端到端训练,生成的自然语言文本保留了流行病学模式,避免了罕见缩写和拼写错误,且本身具备去标识化特性,可实现安全的数据共享,并有望与生成对抗网络(GANs)结合用于合成EHR生成。
A variety of methods existing for generating synthetic electronic health records (EHRs), but they are not capable of generating unstructured text, like emergency department (ED) chief complaints, history of present illness or progress notes. Here, we use the encoder-decoder model, a deep learning algorithm that features in many contemporary machine translation systems, to generate synthetic chief complaints from discrete variables in EHRs, like age group, gender, and discharge diagnosis. After being trained end-to-end on authentic records, the model can generate realistic chief complaint text that preserves much of the epidemiological information in the original data. As a side effect of the model's optimization goal, these synthetic chief complaints are also free of relatively uncommon abbreviation and misspellings, and they include none of the personally-identifiable information (PII) that was in the training data, suggesting it may be used to support the de-identification of text in EHRs. When combined with algorithms like generative adversarial networks (GANs), our model could be used to generate fully-synthetic EHRs, facilitating data sharing between healthcare providers and researchers and improving our ability to develop machine learning methods tailored to the information in healthcare data.
研究动机与目标
- 解决现有EHR合成方法无法生成非结构化临床文本(如主诉)的缺陷。
- 开发一种自然语言生成模型,能够从离散的EHR变量生成逼真、临床上合理的自由文本记录。
- 确保生成的文本不包含个人身份信息(PII)以及常见错误(如拼写错误或罕见缩写)。
- 在与生成对抗网络(GANs)结合时,实现完全合成EHR的生成。
- 通过生成高质量的合成临床叙述,支持数据共享和隐私保护型研究。
提出的方法
- 该模型采用编码器-解码器架构,该架构常用于神经机器翻译,用于将结构化EHR特征映射为自然语言。
- 编码器将离散的EHR变量(如年龄组、性别和出院诊断)处理为密集的上下文表征。
- 解码器基于编码后的表征,逐词生成主诉文本序列。
- 模型在真实EHR数据上进行端到端训练,采用最大似然估计以优化语言流畅性和相关性。
- 由于优化目标的特性,训练过程隐式学习避免使用不常见的缩写和拼写错误。
- 该模型架构使其能够生成无PII的文本,而无需显式的去标识化步骤。
实验结果
研究问题
- RQ1深度学习模型能否从结构化EHR数据中生成逼真、临床上合理的主诉?
- RQ2该模型是否在生成的文本中保留了训练数据中诊断和人口学变量的流行病学分布?
- RQ3该模型能否生成不包含个人身份信息(PII)及常见语言错误的文本?
- RQ4该模型在多大程度上可集成到生成完全合成EHR的流水线中?
- RQ5与真实EHR文本相比,该模型的输出在语言质量和临床合理性方面表现如何?
主要发现
- 人类评估者判断,该模型成功生成了语言流畅且临床上合理的合成主诉。
- 生成的文本保留了训练数据中诊断和人口学变量的流行病学分布。
- 该模型生成的文本不包含罕见缩写和拼写错误,表明其语言质量优于原始EHR文本。
- 该模型本身具备去标识化能力,训练数据中的任何个人身份信息(PII)均未出现在输出中。
- 该模型架构与基于GAN的框架兼容,可支持未来生成完全合成的EHR。
- 该方法在实现安全数据共享及提升临床机器学习模型开发方面展现出潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。