[论文解读] Joint Modeling of Event Sequence and Time Series with Attentional Twin Recurrent Neural Networks
该论文提出了一种可解释的注意力孪生RNN模型ATRPP,通过协同使用两个循环网络——一个用于异步事件,另一个用于时间序列——联合建模事件序列与时间序列数据,以预测未来的事件类型和时间戳。该模型在合成数据集和真实世界数据集(包括医疗保健和系统监控)中均实现了最先进性能,并通过注意力机制增强了可解释性。
A variety of real-world processes (over networks) produce sequences of data whose complex temporal dynamics need to be studied. More especially, the event timestamps can carry important information about the underlying network dynamics, which otherwise are not available from the time-series evenly sampled from continuous signals. Moreover, in most complex processes, event sequences and evenly-sampled times series data can interact with each other, which renders joint modeling of those two sources of data necessary. To tackle the above problems, in this paper, we utilize the rich framework of (temporal) point processes to model event data and timely update its intensity function by the synergic twin Recurrent Neural Networks (RNNs). In the proposed architecture, the intensity function is synergistically modulated by one RNN with asynchronous events as input and another RNN with time series as input. Furthermore, to enhance the interpretability of the model, the attention mechanism for the neural point process is introduced. The whole model with event type and timestamp prediction output layers can be trained end-to-end and allows a black-box treatment for modeling the intensity. We substantiate the superiority of our model in synthetic data and three real-world benchmark datasets.
研究动机与目标
- 为解决异步事件序列与均匀采样时间序列数据联合建模的空白问题,这两类数据在现实系统中常同时存在,但通常被分别建模。
- 克服参数化点过程模型的局限性,后者依赖于强假设(如霍克斯过程中的自激励性),在捕捉复杂动态方面缺乏灵活性。
- 开发一种端到端可训练的非参数化模型,无需先验结构假设即可学习动态强度函数。
- 通过集成注意力机制增强模型可解释性,突出显示对预测至关重要的历史事件和时间序列特征。
提出的方法
- 该模型使用两个并行的长短期记忆网络(LSTM):一个处理事件序列(事件类型和时间戳),另一个处理时间序列数据。
- 时变点过程的强度函数被建模为来自两个RNN的联合隐藏状态的非线性、可学习函数,从而实现实时上下文感知的强度预测。
- 在事件序列RNN上应用注意力机制,以识别并加权对预测下一个事件最具相关性的历史事件,提升可解释性。
- 模型通过两个输出头进行端到端训练:一个用于预测下一个事件类型,另一个用于预测下一个事件时间戳。
- 通过时间反向传播隐式学习强度函数,避免了显式参数形式假设。
- 在合成数据和三个真实世界数据集上评估模型:MIMIC-III(电子健康记录)、IBM ATR(系统故障日志)和MemeTracker(社交媒体事件)。
实验结果
研究问题
- RQ1深度学习模型能否联合建模异步事件序列与时间序列数据,从而在预测准确率上优于分别建模的方法?
- RQ2具有注意力机制的孪生RNN架构在捕捉事件序列与背景时间序列之间复杂动态交互方面效果如何?
- RQ3注意力机制在多大程度上通过突出显示预测过程中关键事件和时间序列特征来提升可解释性?
- RQ4所提出的模型在事件类型和时间戳预测任务中是否均优于现有的参数化与半参数化点过程模型?
- RQ5该模型能否从真实世界的临床与系统监控数据中揭示有意义的潜在网络结构(如疾病进展模式)?
主要发现
- ATRPP在MIMIC-III、IBM ATR和MemeTracker数据集上的事件类型与时间戳预测任务中,均优于所有基线模型。
- 在MIMIC-III数据集上,ATRPP在事件类型预测中取得了最高的F1分数,在时间戳预测中实现了最低的平均绝对误差(MAE),显著优于RMTPP和霍克斯过程基线模型。
- 注意力机制成功识别出具有临床意义的模式:例如,与酒精相关的疾病与尿管导管反应及胃肠道出血风险升高相关。
- 该模型揭示了疾病进展路径,如从气管支气管疾病进展至阵发性室性心动过速和急性肠缺血,提示了合理的临床序列。
- 对注意力诱导的有向网络进行社区检测,显示出紧密的聚类,表明模型捕捉到了数据中的潜在关系结构。
- 即使在患者就诊数据稀疏的情况下,ATRPP仍优于高阶马尔可夫链,表明其对数据稀疏性的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。