[论文解读] Discrete Event, Continuous Time RNNs
本文提出了连续时间门控循环单元(CT-GRU),一种新颖的RNN架构,通过整合四种关键归纳偏置——时间局部性、位置与尺度同质性,以及尺度依赖性——专为事件序列建模而设计。通过利用内在衰减动力学而非离散时间步长来建模时间,CT-GRU在11个多样化数据集上的性能与标准GRU相当,表明连续时间动力学在序列建模中既有效又稳健,且无需牺牲准确性。
We investigate recurrent neural network architectures for event-sequence processing. Event sequences, characterized by discrete observations stamped with continuous-valued times of occurrence, are challenging due to the potentially wide dynamic range of relevant time scales as well as interactions between time scales. We describe four forms of inductive bias that should benefit architectures for event sequences: temporal locality, position and scale homogeneity, and scale interdependence. We extend the popular gated recurrent unit (GRU) architecture to incorporate these biases via intrinsic temporal dynamics, obtaining a continuous-time GRU. The CT-GRU arises by interpreting the gates of a GRU as selecting a time scale of memory, and the CT-GRU generalizes the GRU by incorporating multiple time scales of memory and performing context-dependent selection of time scales for information storage and retrieval. Event time-stamps drive decay dynamics of the CT-GRU, whereas they serve as generic additional inputs to the GRU. Despite the very different manner in which the two models consider time, their performance on eleven data sets we examined is essentially identical. Our surprising results point both to the robustness of GRU and LSTM architectures for handling continuous time, and to the potency of incorporating continuous dynamics into neural architectures.
研究动机与目标
- 为解决在时间尺度广泛变化且事件时间分布不均匀的事件序列建模挑战。
- 将领域特定的归纳偏置——时间局部性、位置与尺度同质性,以及尺度依赖性——整合到RNN架构中。
- 开发一种连续时间RNN变体,通过内在动力学自然处理绝对和相对时间戳,而非依赖外部输入。
- 评估专门的连续时间建模是否能在真实世界事件序列任务中提升或匹配标准RNN的性能。
提出的方法
- CT-GRU通过将GRU的门控机制解释为选择记忆的时间尺度,扩展了GRU架构,使多种时间尺度可共存于隐藏状态中。
- 时间戳驱动隐藏状态中的衰减动力学,每个时间尺度由门值决定的指数衰减常数控制。
- 该架构采用连续时间公式,隐藏状态通过常微分方程(ODE)系统演化,时间戳调制衰减速率。
- 模型根据上下文动态选择时间尺度以实现信息存储与检索,从而适应时间模式的动态变化。
- 通过时间反向传播进行训练,使用ODE的伴随敏感性方法计算梯度。
- 该模型通过允许时间尺度选择动态学习而非由架构固定,对GRU进行了泛化。
实验结果
研究问题
- RQ1能否设计一种显式建模多种时间尺度的连续时间RNN架构,在事件序列任务上超越标准RNN?
- RQ2时间局部性和尺度同质性等归纳偏置在复杂时序动态的事件序列上能在多大程度上提升性能?
- RQ3通过内在衰减动力学建模时间,是否能实现与将时间视为外部输入的标准RNN相当的性能?
- RQ4时间尺度之间的相互作用如何影响事件序列中长期与短期依赖关系的建模?
主要发现
- 尽管在时间处理方式上与标准GRU有根本性差异,CT-GRU在11个多样化数据集上的性能与标准GRU基本一致。
- 通过其连续时间动力学和多尺度记忆机制,模型成功整合了时间局部性、位置同质性、尺度同质性以及尺度依赖性。
- CT-GRU与GRU之间性能的等价性表明,标准RNN(如GRU和LSTM)对连续时间输入具有鲁棒性,即使未进行架构专门化亦然。
- 结果表明,连续时间动力学可有效整合到RNN中而不会损失预测准确性,支持在序列建模中采用基于ODE的公式。
- CT-GRU表明,时间可被建模为隐藏状态动力学的内在属性,而非作为外部输入特征,且性能未因此下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。