Skip to main content
QUICK REVIEW

[论文解读] Conformal k-NN Anomaly Detector for Univariate Data Streams

Vladislav Ishimtsev, Ivan Nazarov|arXiv (Cornell University)|Jun 11, 2017
Anomaly Detection Techniques and Applications参考文献 1被引用 26
一句话总结

该论文提出了一种用于单变量时间序列的共形k-最近邻异常检测器,通过滑动窗口适应非平稳性,并利用共形预测提供概率异常度量。该方法在Numenta异常基准和Yahoo! S5数据集上达到最先进性能,优于复杂的基于预测的模型,并在2016年Numenta竞赛中获得第三名。

ABSTRACT

Anomalies in time-series data give essential and often actionable information in many applications. In this paper we consider a model-free anomaly detection method for univariate time-series which adapts to non-stationarity in the data stream and provides probabilistic abnormality scores based on the conformal prediction paradigm. Despite its simplicity the method performs on par with complex prediction-based models on the Numenta Anomaly Detection benchmark and the Yahoo! S5 dataset.

研究动机与目标

  • 开发一种无需模型的单变量时间序列异常检测方法,能够适应非平稳性并提供概率异常度量。
  • 通过整合共形预测,解决传统基于距离和基于预测方法的局限性,提供有效且非参数化的置信度量。
  • 提升在具有准周期性、非平稳性和长程依赖性的现实世界数据流上的检测性能。
  • 在严格基准上验证该方法,包括Numenta异常基准和Yahoo! S5数据集,并采用现实的成本函数。
  • 证明基于共形评分的简单k-最近邻方法可与神经网络和皮层记忆系统等复杂模型相媲美。

提出的方法

  • 通过长度为l的滑动窗口将单变量时间序列嵌入高维空间,使k-最近邻算法能够作用于序列模式。
  • 采用共形预测基于校准集计算非参数p值(非符合度量),提供异常度量的有效概率置信度。
  • 从非符合度量的经验分布中推导出局部密度置信度(LDCD)分数,提供一种稳健且与分布相关的异常度量。
  • 采用动态范围(DynR)启发式方法作为基线比较,其依赖于重建误差的简单缩放,但无概率保证。
  • 在后处理中应用信号剪枝以减少误报,尤其在基线k-最近邻检测器过于敏感时。
  • 采用延迟评分机制,通过维护最近观测值的滑动窗口实现对概念漂移的适应,用于校准和预测。

实验结果

研究问题

  • RQ1在非平稳的单变量时间序列中,简单的k-最近邻模型结合共形预测能否提供可靠且概率有效的异常度量?
  • RQ2在现实世界异常检测基准中,共形k-最近邻方法与复杂基于预测的模型相比表现如何?
  • RQ3LDCD置信度分数在多大程度上优于DynR等启发式方法?
  • RQ4信号剪枝是否能在不增加假阴性率的情况下有效减少共形k-最近邻框架中的假阳性?
  • RQ5由于嵌入向量重叠导致时间序列违反独立同分布(i.i.d.)假设,对共形度量有效性有何影响?

主要发现

  • 共形k-最近邻检测器在Yahoo! S5数据集上获得标准分64.3,在Numenta数据集上获得56.8,优于基线DynR及其他复杂模型。
  • 经信号剪枝后,27-最近邻且l=19、采用LDCD评分的模型在Yahoo! S5和Numenta数据集上分别获得64.3和56.8的标准分,在2016年Numenta异常检测竞赛中位列第三。
  • LDCD置信度分数显著提升了基准性能,而DynR启发式方法缺乏概率有效性,仅关注极端值。
  • 即使k=1且无嵌入(l=1),基于LDCD的k-最近邻模型在Yahoo! S5和Numenta数据集上仍分别获得46.9和53.5的标准分,表明其在无需报警稀释的情况下具有强鲁棒性。
  • 该方法表现出较低的假阴性和假阳性率,两个数据集上的LowFN和LowFP分数均持续高于50,表明异常覆盖和精度表现优异。
  • 结果表明,LDCD方法的理论有效性在实践中成立,但关于重叠时间序列嵌入中i.i.d.假设违反的影响,仍需进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。