QUICK REVIEW

[论文解读] Robust SDE Parameter Estimation Under Missing Time Information Setting

Long Van Tran, Truyen Tran|arXiv (Cornell University)|Jan 28, 2026

Machine Learning in Healthcare被引用 0

一句话总结

本文提出 ReTrace，一种基于分数的框架，用于从无序的 SDE 观测中恢复时间顺序并同时估计漂移和扩散参数，在缺失时间戳的情况下实现可靠的参数推断和反事实治疗效应分析。

ABSTRACT

Recent advances in stochastic differential equations (SDEs) have enabled robust modeling of real-world dynamical processes across diverse domains, such as finance, health, and systems biology. However, parameter estimation for SDEs typically relies on accurately timestamped observational sequences. When temporal ordering information is corrupted, missing, or deliberately hidden (e.g., for privacy), existing estimation methods often fail. In this paper, we investigate the conditions under which temporal order can be recovered and introduce a novel framework that simultaneously reconstructs temporal information and estimates SDE parameters. Our approach exploits asymmetries between forward and backward processes, deriving a score-matching criterion to infer the correct temporal order between pairs of observations. We then recover the total order via a sorting procedure and estimate SDE parameters from the reconstructed sequence using maximum likelihood. Finally, we conduct extensive experiments on synthetic and real-world datasets to demonstrate the effectiveness of our method, extending parameter estimation to settings with missing temporal order and broadening applicability in sensitive domains.

研究动机与目标

由于隐私、噪声或损坏导致时间顺序缺失时，研究 SDE 参数估计的动机。
从理论上表征线性 SDE 的无序观测中时间方向何时可辨识。
开发一种基于分数的方法来恢复时间顺序并估计 SDE 参数。
在合成数据和真实数据集上展示此方法的鲁棒性，包括治疗效应场景。

提出的方法

将来自时间同质、含加性噪声且置换未知的无序观测问题进行形式化。
推导可辨识性条件：在可逆性（详细平衡）下不可辨识；在不可逆动力学下通过漂移–分数不一致性实现可辨识。
提出 ReTrace 算法，在参数估计（A 与 H 的最大似然估计）与基于分数的数据重新排序之间交替，以最大化 SDE 的似然。
使用离散的 Euler–Maruyama 框架将增量与漂移和扩散联系起来，并推导 A 和 H 的最大似然公式（方程 12–16）。
引入对偶对比分数准则，利用对数密度梯度计算相邻对之间的漂移–分数不一致性（方程 9–11 与 17）。
给出算法 1（ReTrace）用于迭代的重新排序与参数学习，并具备收敛保证。

Figure 1: Our sorting procedure leverages drift-score discrepancy to reorder data. (a) Compare errors for each states pair in the Data Reordering stage. (b) Alternating between sorting data and estimating parameters.

实验结果

研究问题

RQ1是否可以从不可序的不可逆 SDE 观测中识别时间顺序？
RQ2如何从无序数据中联合恢复时间顺序并估计 SDE 参数（A、H）？
RQ3经验漂移与带分数修正的漂移之间的分数不一致性是否能可靠地区分正确的时间方向？
RQ4在合成和真实数据中，对观测噪声和缺失时间信息的方法鲁棒性如何？
RQ5恢复的顺序与 SDE 参数是否能实现准确的反事实治疗效应估计？

主要发现

方法	准确率	MAE-A	MAE-H
ReTrace-MLE	99.1±2.6	0.05±0.03	0.10±0.07
ReTrace-OLS	93.6±12.8	3.9±3.5	5.0±9.7
ReTrace-EM	98.3±3.5	0.1±4.2	11.4±10.1
MST-MLE	22.1±15.1	3.1±3.9	8.5±10.5
DPT-MLE	4.8±7.0	5.0±4.2	11.4±11.6

ReTrace 在不可逆 SDE 数据集上实现了高精度的时间顺序重构和参数恢复（在基线设置下的顺序准确率约为 99%，A 的 MAE 约为 0.05，H 的 MAE 约为 0.1）。
与 MST 和 DPT 基线相比，ReTrace 在排序精度与参数估计方面均显著优于基线（MAE 更低）。
在 ReTrace 内，MLE 与 EM 参数学习得到最小的漂移与扩散误差，OLS 表现尚可但在多数情形不如 MLE/EM。
在观测噪声下，ReTrace 在噪声水平 0.1–0.5 的情况下仍保持优越的排序精度与漂移 MAE，优于基线。
该方法扩展到具有合成肿瘤生长轨迹的药理学数据，能够进行反事实治疗效应估计和 LTE 分析。
算法 1（ReTrace）在许多场景中可在 1–2 个世代内收敛。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。