QUICK REVIEW
[论文解读] Conformal k-NN Anomaly Detector for Univariate Data Streams
Vladislav Ishimtsev, Ivan Nazarov|arXiv (Cornell University)|Jun 11, 2017
Anomaly Detection Techniques and Applications参考文献 1被引用 26
一句话总结
该论文提出了一种用于单变量时间序列的共形k-最近邻异常检测器,通过滑动窗口适应非平稳性,并利用共形预测提供概率异常度量。该方法在Numenta异常基准和Yahoo! S5数据集上达到最先进性能,优于复杂的基于预测的模型,并在2016年Numenta竞赛中获得第三名。
ABSTRACT
Anomalies in time-series data give essential and often actionable information in many applications. In this paper we consider a model-free anomaly detection method for univariate time-series which adapts to non-stationarity in the data stream and provides probabilistic abnormality scores based on the conformal prediction paradigm. Despite its simplicity the method performs on par with complex prediction-based models on the Numenta Anomaly Detection benchmark and the Yahoo! S5 dataset.
研究动机与目标
- 开发一种无需模型的单变量时间序列异常检测方法,能够适应非平稳性并提供概率异常度量。
- 通过整合共形预测,解决传统基于距离和基于预测方法的局限性,提供有效且非参数化的置信度量。
- 提升在具有准周期性、非平稳性和长程依赖性的现实世界数据流上的检测性能。
- 在严格基准上验证该方法,包括Numenta异常基准和Yahoo! S5数据集,并采用现实的成本函数。
- 证明基于共形评分的简单k-最近邻方法可与神经网络和皮层记忆系统等复杂模型相媲美。
提出的方法
- 通过长度为l的滑动窗口将单变量时间序列嵌入高维空间,使k-最近邻算法能够作用于序列模式。
- 采用共形预测基于校准集计算非参数p值(非符合度量),提供异常度量的有效概率置信度。
- 从非符合度量的经验分布中推导出局部密度置信度(LDCD)分数,提供一种稳健且与分布相关的异常度量。
- 采用动态范围(DynR)启发式方法作为基线比较,其依赖于重建误差的简单缩放,但无概率保证。
- 在后处理中应用信号剪枝以减少误报,尤其在基线k-最近邻检测器过于敏感时。
- 采用延迟评分机制,通过维护最近观测值的滑动窗口实现对概念漂移的适应,用于校准和预测。
实验结果
研究问题
- RQ1在非平稳的单变量时间序列中,简单的k-最近邻模型结合共形预测能否提供可靠且概率有效的异常度量?
- RQ2在现实世界异常检测基准中,共形k-最近邻方法与复杂基于预测的模型相比表现如何?
- RQ3LDCD置信度分数在多大程度上优于DynR等启发式方法?
- RQ4信号剪枝是否能在不增加假阴性率的情况下有效减少共形k-最近邻框架中的假阳性?
- RQ5由于嵌入向量重叠导致时间序列违反独立同分布(i.i.d.)假设,对共形度量有效性有何影响?
主要发现
- 共形k-最近邻检测器在Yahoo! S5数据集上获得标准分64.3,在Numenta数据集上获得56.8,优于基线DynR及其他复杂模型。
- 经信号剪枝后,27-最近邻且l=19、采用LDCD评分的模型在Yahoo! S5和Numenta数据集上分别获得64.3和56.8的标准分,在2016年Numenta异常检测竞赛中位列第三。
- LDCD置信度分数显著提升了基准性能,而DynR启发式方法缺乏概率有效性,仅关注极端值。
- 即使k=1且无嵌入(l=1),基于LDCD的k-最近邻模型在Yahoo! S5和Numenta数据集上仍分别获得46.9和53.5的标准分,表明其在无需报警稀释的情况下具有强鲁棒性。
- 该方法表现出较低的假阴性和假阳性率,两个数据集上的LowFN和LowFP分数均持续高于50,表明异常覆盖和精度表现优异。
- 结果表明,LDCD方法的理论有效性在实践中成立,但关于重叠时间序列嵌入中i.i.d.假设违反的影响,仍需进一步研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。