[论文解读] One-Class Support Measure Machines for Group Anomaly Detection
本文提出了一种一类支持测度机(OCSMMs),这是一种非参数框架,通过在再生核希尔伯特空间(RKHS)中利用核均值嵌入对数据组建模为概率分布,实现对群体异常的检测。该方法将一类SVM推广至分布层面,通过将问题表述为分位数估计,实现了对异常聚合行为(尤其是正常点组成的群体)的检测,在SDSS和高能物理数据等真实世界数据集上取得了具有竞争力的性能。
We propose one-class support measure machines (OCSMMs) for group anomaly detection which aims at recognizing anomalous aggregate behaviors of data points. The OCSMMs generalize well-known one-class support vector machines (OCSVMs) to a space of probability measures. By formulating the problem as quantile estimation on distributions, we can establish an interesting connection to the OCSVMs and variable kernel density estimators (VKDEs) over the input space on which the distributions are defined, bridging the gap between large-margin methods and kernel density estimators. In particular, we show that various types of VKDEs can be considered as solutions to a class of regularization problems studied in this paper. Experiments on Sloan Digital Sky Survey dataset and High Energy Particle Physics dataset demonstrate the benefits of the proposed framework in real-world applications.
研究动机与目标
- 为解决在数据点群体中检测异常聚合行为的挑战,特别是当单个点正常但其集体行为异常时。
- 开发一种非参数方法,不假设底层分布的参数形式,从而比现有生成模型具有更广泛的应用范围。
- 提供一种自上而下的检测方法,直接识别群体层面的异常,而无需依赖先前的点异常检测,从而提高计算效率。
- 在分布层面异常检测的背景下,弥合大间隔方法(如OCSVM)与核密度估计器(如VKDE)之间的差距。
提出的方法
- 将每组数据点表示为概率分布,通过独立同分布样本进行经验估计。
- 使用核均值嵌入将每个分布映射到再生核希尔伯特空间(RKHS),使分布可作为向量进行操作。
- 将群体异常检测问题表述为在概率测度空间上的分位数估计问题,识别位于经验分布尾部的分布。
- 通过在RKHS嵌入上定义基于间隔的优化问题,将一类SVM推广至测度空间,从而得到OCSMMs。
- 建立OCSMMs与可变核密度估计器(VKDEs)之间的理论联系,表明VKDEs是与OCSMMs相关的同一类正则化问题的解。
- 在RKHS嵌入中使用高斯核,并通过对偶形式求解优化问题,实现高效计算。
实验结果
研究问题
- RQ1非参数的、基于分布的方法是否能比基于点的或生成模型更有效地检测群体异常?
- RQ2一类SVM如何推广至在概率测度而非单个数据点上操作?
- RQ3在分布层面异常检测的背景下,大间隔方法与核密度估计器之间存在何种关系?
- RQ4所提出的方法能否检测到正常点群体中的细微、高阶统计异常,例如在希子玻色子信号检测中的情况?
- RQ5与依赖先前点异常检测的自下而上的方法相比,所提出的自上而下的OCSMM方法在性能和效率上表现如何?
主要发现
- OCSMMs在检测群体层面异常方面优于传统基于点的异常检测算法,尤其在单个点不异常的情况下表现更优。
- 在斯隆数字巡天(SDSS)数据集中,OCSMMs成功检测出表现出异常集体行为的星系群体。
- 在高能粒子物理实验中,OCSMMs在ROC曲线下方面积表现具有竞争力,能够将希子玻色子信号识别为背景事件中的异常群体。
- OCSMM框架在ROC曲线下方面积上优于MGM算法,并与基于KNN的群体异常检测方法相当或更优。
- 该方法计算高效且可扩展,由于其直接的自上而下检测策略,适用于在线和大规模应用场景。
- 理论分析表明,多种可变核密度估计器(VKDEs)是与OCSMMs基础正则化问题属于同一类的解,从而建立了大间隔方法与密度估计方法之间的正式联系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。