Skip to main content
QUICK REVIEW

[论文解读] Learning Hawkes Processes from Short Doubly-Censored Event Sequences

Hongteng Xu, Dixin Luo|arXiv (Cornell University)|Feb 22, 2017
Point processes and geometric inequalities参考文献 32被引用 23
一句话总结

本文提出一种采样-拼接数据合成方法,通过从不完整数据中生成长序列,以从现实应用中常见的短双重右删失(SDC)事件序列中学习霍克斯过程。该方法显著提升了时不变与时变霍克斯过程的学习鲁棒性,在合成数据和真实世界数据(包括MIMIC-III患者入院数据)上均显著增强了模型性能。

ABSTRACT

Many real-world applications require robust algorithms to learn point processes based on a type of incomplete data --- the so-called short doubly-censored (SDC) event sequences. We study this critical problem of quantitative asynchronous event sequence analysis under the framework of Hawkes processes by leveraging the idea of data synthesis. Given SDC event sequences observed in a variety of time intervals, we propose a sampling-stitching data synthesis method --- sampling predecessors and successors for each SDC event sequence from potential candidates and stitching them together to synthesize long training sequences. The rationality and the feasibility of our method are discussed in terms of arguments based on likelihood. Experiments on both synthetic and real-world data demonstrate that the proposed data synthesis method improves learning results indeed for both time-invariant and time-varying Hawkes processes.

研究动机与目标

  • 为解决从短双重右删失(SDC)事件序列中学习霍克斯过程的挑战,此类序列的观测区间过短,难以捕捉完整的触发动力学。
  • 克服直接从SDC序列学习所导致的过拟合及历史触发模式丢失的局限性。
  • 开发一种数据合成框架,通过从不完整的SDC数据中生成长而合理的训练序列,以增强模型鲁棒性。
  • 实现时变霍克斯过程的可靠学习,例如随年龄演变的动态疾病网络。
  • 为现实世界应用提供实用解决方案,其中完整事件历史不可观测,如患者疾病进展或职业跳槽模式。

提出的方法

  • 基于与目标序列的相似性,为每个SDC事件序列采样前驱和后继序列,使用时间戳和可选事件特征。
  • 采用基于核的方法度量序列间的相似性,以捕捉时间与特征层面的接近程度。
  • 通过将采样的前驱序列、原始SDC序列与后继序列拼接,构建合成的长事件序列。
  • 分析合成序列的似然性,以证明该数据合成方法的合理性和可行性。
  • 该方法应用于时不变与时变霍克斯过程,参数通过在合成数据上使用最大似然法估计。
  • 采用基于自举法的基线方法进行对比,证明所提合成方法在学习性能上的优越性。

实验结果

研究问题

  • RQ1与直接在不完整数据上进行训练相比,从短双重右删失事件序列中进行数据合成是否能提升霍克斯过程的学习效果?
  • RQ2采样-拼接方法在恢复SDC序列中未观测到的触发模式方面效果如何?
  • RQ3所提方法是否能增强时变霍克斯过程(如年龄依赖的疾病网络)的学习鲁棒性?
  • RQ4结合时间与特征相似性在多大程度上提升了合成序列的质量?
  • RQ5在对数似然与测试数据上的模型泛化能力方面,该方法与基线方法(如自举法)相比表现如何?

主要发现

  • 所提数据合成方法在合成与真实世界设置下,均显著提升了测试数据的对数似然,优于基线方法。
  • 在MIMIC-III数据集上,该方法相较于基于自举法的竞争对手,在对数似然上实现了更显著的提升,尤其在捕捉时变动态方面表现突出。
  • 学习到的动态疾病网络揭示了具有生物学合理性的模式:网络随年龄增长而变得更密集,反映出老年患者共病增加。
  • 对于儿童与青少年,疾病网络稀疏,主要由先天性或系统性疾病(如心脏病与肿瘤)主导。
  • 在中年阶段,疾病网络变得密集,表现出强烈的相互触发,表明存在复杂、多阶段的疾病进展过程。
  • 对于高龄患者(80岁以上),网络密度低于中年阶段,反映出入院主要由慢性、长期疾病驱动,而非急性、级联事件。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。