QUICK REVIEW

[论文解读] LSCP: Locally Selective Combination in Parallel Outlier Ensembles

Yue Zhao, Zain Nasrullah|arXiv (Cornell University)|Dec 4, 2018

Cellular Automata and Applications被引用 18

一句话总结

LSCP 提出了一种新颖的无监督异常检测框架，通过在随机特征子空间中利用最近邻的共识，局部选择并组合每个测试实例周围最可靠的基检测器。该方法优于现有的并行集成方法，其中 LSCP_AOM 在 20 个真实世界数据集中的 13 个上达到最高的 ROC-AUC，在 14 个上达到最高的 mAP，这是由于采用了局部能力评估和通过第二阶段平均实现的方差减少。

ABSTRACT

In unsupervised outlier ensembles, the absence of ground truth makes the combination of base outlier detectors a challenging task. Specifically, existing parallel outlier ensembles lack a reliable way of selecting competent base detectors, affecting accuracy and stability, during model combination. In this paper, we propose a framework---called Locally Selective Combination in Parallel Outlier Ensembles (LSCP)---which addresses the issue by defining a local region around a test instance using the consensus of its nearest neighbors in randomly selected feature subspaces. The top-performing base detectors in this local region are selected and combined as the model's final output. Four variants of the LSCP framework are compared with seven widely used parallel frameworks. Experimental results demonstrate that one of these variants, LSCP_AOM, consistently outperforms baselines on the majority of twenty real-world datasets.

研究动机与目标

为解决无监督并行异常检测集成中基检测器选择不可靠的问题，因为表现差的检测器会降低整体性能。
通过强调检测器组合中的数据局部性，而非依赖全局评估，来提升模型的准确性和稳定性。
将监督学习中的动态分类器选择（DCS）原则应用于无监督异常检测，实现基于实例的检测器选择。
开发一种可泛化、可解释且稳定的框架，兼容多种基检测器，并在真实世界数据集上进行验证。
通过理论分析、可视化和统计检验，增强模型的可解释性。

提出的方法

通过在随机选择的特征子空间中，利用测试实例的 k 个最近邻的共识，定义其局部区域。
通过将每个基检测器在该局部区域内的异常得分与基于检测器集成生成的伪真实标签进行比较，来衡量其能力。
在局部区域内，通过最大化（LSCP_M）或平均化（LSCP_A）其局部得分，选择表现最佳的基检测器。
通过第二阶段组合，对表现最佳的检测器得分进行平均（例如 LSCP_AOM），以进一步降低方差并改善偏差。
使用通过对基检测器得分进行平均或最大化生成的伪真实标签，来评估局部检测器的表现。
实现四种变体：LSCP_M、LSCP_A、LSCP_MOA 和 LSCP_AOM，其选择与组合策略各不相同。

实验结果

研究问题

RQ1基于随机子空间中最近邻的局部检测器选择，是否能提升无监督集成中的异常检测性能？
RQ2在检测器组合中强调数据局部性，是否相比全局集成平均，能带来更高的准确性和稳定性？
RQ3与单阶段选择相比，LSCP_AOM 中的第二阶段平均在偏差和方差降低方面表现如何？
RQ4在何种数据场景下，LSCP 优于全局平均（GG）方法，特别是在局部与分散的异常模式方面？
RQ5LSCP 框架是否可在多种基检测器上泛化，并在无真实标签的情况下保持有效性？

主要发现

LSCP_AOM 在 20 个真实世界数据集中的 13 个上达到最高的 ROC-AUC，证明其整体性能更优。
LSCP_AOM 在 20 个数据集中的 14 个上达到最高的 mAP，尤其在 Breastw、Cardio、Satimage-2 和 Thyroid 数据集中表现尤为突出。
LSCP 在检测局部异常簇方面优于 GG 基线方法，这一结果通过 Cardio 和 Thyroid 数据集的 t-SNE 可视化结果得到直观验证。
在 Letter 数据集中，LSCP 的表现劣于 GG_M，原因是异常呈分散分布，未形成局部簇，表明其对异常分布和局部区域大小具有敏感性。
LSCP_AOM 中的第二阶段平均带来了显著的性能提升，而 LSCP_MOA 并未优于 LSCP_A 或 GG_MOA，表明初始平均化导致的信息损失降低了后续平均化的收益。
当异常形成局部簇，且局部区域大小与异常比例相匹配时（如在 Vowels 和 Letter 等低异常率数据集中使用较小区域），LSCP 效果最佳。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。