[论文解读] MEMTO: Memory-guided Transformer for Multivariate Time Series Anomaly Detection
MEMTO 引入一个记忆引导的 Transformer,配备门控记忆模块和两阶段训练范式,用于在多变量时间序列中检测异常,在五个真实世界数据集上实现了最先进的 F1 分数,采用双维偏差基检测准则。
Detecting anomalies in real-world multivariate time series data is challenging due to complex temporal dependencies and inter-variable correlations. Recently, reconstruction-based deep models have been widely used to solve the problem. However, these methods still suffer from an over-generalization issue and fail to deliver consistently high performance. To address this issue, we propose the MEMTO, a memory-guided Transformer using a reconstruction-based approach. It is designed to incorporate a novel memory module that can learn the degree to which each memory item should be updated in response to the input data. To stabilize the training procedure, we use a two-phase training paradigm which involves using K-means clustering for initializing memory items. Additionally, we introduce a bi-dimensional deviation-based detection criterion that calculates anomaly scores considering both input space and latent space. We evaluate our proposed method on five real-world datasets from diverse domains, and it achieves an average anomaly detection F1-score of 95.74%, significantly outperforming the previous state-of-the-art methods. We also conduct extensive experiments to empirically validate the effectiveness of our proposed model's key components.
研究动机与目标
- 通过解决基于重构的方法的过度泛化问题,推动现实世界多变量时间序列的鲁棒异常检测。
- 开发一个记忆引导的 Transformer,存储原型化的正常模式以规范化对异常的重构。
- 通过两阶段训练范式来稳定记忆更新,该范式用 K-means 中心初始化记忆项。
- 提出一个双维异常分数,结合潜在空间和输入空间的偏差,以实现稳健的在线检测。
提出的方法
- 使用 Transformer 编码器将输入子序列投影到潜在空间。
- 引入一个带更新门的门控记忆模块,使记忆项适应输入数据。
- 实现一个基于记忆条件的查询更新阶段,在解码前检索并将记忆项与查询连接起来。
- 采用一个弱解码器来重构输入,作为自监督前任务。
- 训练时使用重构损失以及对记忆注意力的基于熵的稀疏性正则化,以控制新信息的引入。
- 使用两阶段训练范式通过对编码器生成的查询进行 K-means 聚类来初始化记忆项。

实验结果
研究问题
- RQ1MEMTO 是否能在跨越多样化真实世界数据集的多变量时间序列异常检测任务中超越现有方法?
- RQ2门控记忆模块是否通过适应多样化的正常模式来提升鲁棒性?
- RQ3两阶段记忆初始化是否在跨数据集的训练中提升稳定性和性能?
- RQ4双维偏差基准(潜在空间和输入空间)是否比单一空间准则提供更可靠的异常分数?
- RQ5MEMTO 对记忆项数量的敏感性及其计算权衡如何?
主要发现
| 数据集 | P(SMD) | R(SMD) | F1(SMD) | P(MSL) | R(MSL) | F1(MSL) | P(PSM) | R(PSM) | F1(PSM) | P(SMAP) | R(SMAP) | F1(SMAP) | P(SWaT) | R(SWaT) | F1(SWaT) | Avg F1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| MEMTO | 89.13 | 98.40 | 93.54 | 92.07 | 96.76 | 94.36 | 93.76 | 99.63 | 96.61 | 94.18 | 97.54 | 95.83 | 97.46 | 99.23 | 98.34 | 95.74 |
- MEMTO 在五个真实世界数据集上实现平均 F1-score 为 95.74%,超越了先前的最先进方法。
- 双维偏差基异常准则(潜在空间与输入空间)持续优于仅使用一个空间的准则。
- 移除门控记忆模块会显著降低性能,在 SWaT 上尤为明显下降。
- 通过 K-means 的两阶段记忆初始化显著提升稳定性和平均 F1-score。
- MEMTO 在记忆项数量变化时仍然鲁棒,考虑性能和效率,十个项被认为是一个较好的默认值。
- 由于在线计算更简单,MEMTO 的推理时间比所比的 Anomaly Transformer 模型更快。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。