[论文解读] Evaluation metrics for temporal preservation in synthetic longitudinal patient data
论文提出一组多维度的度量,用于评估合成纵向患者数据在时间保持性方面的表现,覆盖边际、协方差、个体以及测量结构,采用核平滑和一个开源的 R 实现。
This study introduces a set of metrics for evaluating temporal preservation in synthetic longitudinal patient data, defined as artificially generated data that mimic real patients' repeated measurements over time. The proposed metrics assess how synthetic data reproduces key temporal characteristics, categorized into marginal, covariance, individual-level and measurement structures. We show that strong marginal-level resemblance may conceal distortions in covariance and disruptions in individual-level trajectories. Temporal preservation is influenced by factors such as original data quality, measurement frequency, and preprocessing strategies, including binning, variable encoding and precision. Variables with sparse or highly irregular measurement times provide limited information for learning temporal dependencies, resulting in reduced resemblance between the synthetic and original data. No single metric adequately captures temporal preservation; instead, a multidimensional evaluation across all characteristics provides a more comprehensive assessment of synthetic data quality. Overall, the proposed metrics clarify how and why temporal structures are preserved or degraded, enabling more reliable evaluation and improvement of generative models and supporting the creation of temporally realistic synthetic longitudinal patient data.
研究动机与目标
- 激发对评估合成纵向患者数据(LPD)时间保持性的必要性。
- 定义四类需要评估保持性的时间特征:边际、协方差、个体和测量结构。
- 开发适用于不平衡 LPD 与真实世界预处理的鲁棒非参数度量体系。
- 提供开源的 R 实现并通过实证演示来指导 SDG 方法的评估。
提出的方法
- 回顾现有的时间评估度量并识别不平衡 LPD 的局限性。
- 引入基于核平滑的度量以捕捉随时间变化的模式和依赖性。
- 定义单变量时间保持性和四类度量:边际、协方差、个体和测量结构。
- 提供非参数估计量(如核平滑、加权 CDF、变差函数)和便于可视化的输出。
- 提供开源的 R 实现,并将度量应用于从 MIMIC-III 派生、使用 HALO 和 Health Gym GAN 的合成数据集。
实验结果
研究问题
- RQ1合成纵向数据在多大程度上再现变量的时间变化边际分布?
- RQ2合成数据在多大程度上保留协方差和自相关结构?
- RQ3合成数据是否保留与原始数据相当的个体特定轨迹和测量-时间模式?
- RQ4数据质量、测量频率和预处理决策(如分箱与精度)如何影响时间保持性?
主要发现
- 强烈的边际相似性可能掩盖协方差的失真和个体轨迹的中断。
- 时间保持性受原始数据质量、测量频率以及如分箱与精度等预处理策略影响。
- 具有稀疏或不规则测量时间的变量为学习时间相关性提供的信息有限,导致相似性降低。
- 单一聚合度量不足;在边际、协方差、个体和测量结构上的多维评估能带来更清晰的见解。
- 本研究提供开源的 R 实现,并在源自 MIMIC-III 的 HALO 与 Health Gym GAN 的真实世界 LPD 数据上给出实证示例,强调度量的实际解释。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。