[论文解读] Self-attention with Functional Time Representation Learning
本文提出了函数时间嵌入,将连续时间差整合到自注意力中,用于连续时间事件序列,基于 Bochner 和 Mercer 的理论基础,并在真实世界数据集上展示了改进的预测性能。
Sequential modelling with self-attention has achieved cutting edge performances in natural language processing. With advantages in model flexibility, computation complexity and interpretability, self-attention is gradually becoming a key component in event sequence models. However, like most other sequence models, self-attention does not account for the time span between events and thus captures sequential signals rather than temporal patterns. Without relying on recurrent network structures, self-attention recognizes event orderings via positional encoding. To bridge the gap between modelling time-independent and time-dependent event sequence, we introduce a functional feature map that embeds time span into high-dimensional spaces. By constructing the associated translation-invariant time kernel function, we reveal the functional forms of the feature map under classic functional function analysis results, namely Bochner's Theorem and Mercer's Theorem. We propose several models to learn the functional time representation and the interactions with event representation. These methods are evaluated on real-world datasets under various continuous-time event sequence prediction tasks. The experiments reveal that the proposed methods compare favorably to baseline models while also capturing useful time-event interactions.
研究动机与目标
- 激发在自注意力中捕捉连续时间模式的需求,超越离散位置编码。
- 提出平移不变的时间核和函数特征映射,将时间跨度嵌入到向量空间中。
- 推导并比较基于 Bochner 和基于 Mercer 的时间嵌入,含时间与事件表征之间的可学习交互。
- 在真实世界数据集上经验性验证该方法,并展示持续时间事件序列预测的改进。
提出的方法
- 将时间嵌入表述为平移不变核 K(t1,t2)=ψ(t1−t2) 以及特征映射 Φ。
- 通过 Bochner 定理(随机傅里叶特征)和 Mercer 定理(傅里叶基/周期核)来对 Φ 进行定基,以获得有限维嵌入。
- 提供实用的 Bochner 时序编码变体,使用重参数化、反向CDF变换或非参数选项来学习 Φ。
- 将 Mercer 时间嵌入提出为截断的傅里叶基,并具有可学习系数以及覆盖多带宽的一组频率。
- 通过将 Z(事件)和 Φ(t)(时间)连接,输入到 Q/K/V 投影,将时间嵌入与事件嵌入整合到自注意力中。
- 用线性或非线性(MLP)变换建模时间-事件相互作用,并可选地使用残差块以捕捉复杂依赖关系。
实验结果
研究问题
- RQ1是否能通过基于核的时间表示,基于原理的方式将连续时间差有效嵌入到自注意力中?
- RQ2哪种函数形式(Bochner 与 Mercer)能够提供与深度模型兼容的鲁棒、可学习的时间嵌入?
- RQ3相较于标准位置编码和时间增强基线,时间感知嵌入是否能提升连续时间事件序列预测?
主要发现
- Mercer 和 Bochner 基于的时间嵌入在真实世界数据集上始终优于基线,提升性能。
- 使用傅里叶基的 Mercer_time_embedding 常常获得最佳整体性能,且时间-事件交互建模有效。
- 具有非参数逆CDF变换的 Bochner 时间嵌入也显示出强劲结果,有时优于基线。
- Bochner 方法受益于灵活的分布学习(如 Inv CDF、MAF、NVP),而 Mercer 通过截断的傅里叶展开提供稳定性。
- 嵌入捕捉的时间-事件交互在注意力权重中揭示可解释的时间模式(定性分析)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。