[论文解读] Incorporating Feedback into Tree-based Anomaly Detection
本文提出 IF-AAD,一种新颖方法,通过整合二元分析师反馈,实时优化异常排名,从而增强孤立森林。通过将树节点视为集成中的加权组件并根据反馈重新加权,IF-AAD 显著减少了分析师需手动检查的误报数量,相较于基线孤立森林,可实现最多两倍的真正异常检测数量。
Anomaly detectors are often used to produce a ranked list of statistical anomalies, which are examined by human analysts in order to extract the actual anomalies of interest. Unfortunately, in realworld applications, this process can be exceedingly difficult for the analyst since a large fraction of high-ranking anomalies are false positives and not interesting from the application perspective. In this paper, we aim to make the analyst's job easier by allowing for analyst feedback during the investigation process. Ideally, the feedback influences the ranking of the anomaly detector in a way that reduces the number of false positives that must be examined before discovering the anomalies of interest. In particular, we introduce a novel technique for incorporating simple binary feedback into tree-based anomaly detectors. We focus on the Isolation Forest algorithm as a representative tree-based anomaly detector, and show that we can significantly improve its performance by incorporating feedback, when compared with the baseline algorithm that does not incorporate feedback. Our technique is simple and scales well as the size of the data increases, which makes it suitable for interactive discovery of anomalies in large datasets.
研究动机与目标
- 解决基于树的异常检测中算法异常与人类定义异常之间的语义不匹配问题。
- 通过最小化分析师在异常发现过程中需手动检查的误报数量,减轻其工作负担。
- 开发一种可扩展的交互式方法,利用实时反馈动态调整异常排名。
- 评估是否可有效在节点级别而非仅在集成输出级别整合反馈。
- 证明在反馈驱动的异常检测中,对内部节点和叶节点均加权,可优于仅对叶节点加权的性能。
提出的方法
- 该方法将孤立森林中的每个树节点建模为集成中的加权组件,其权重根据分析师反馈进行更新。
- 使用二元反馈(真正异常或正常)通过主动学习框架重新加权节点,调整每个节点对最终异常评分的贡献。
- 算法使用节点权重的线性组合计算异常评分,反馈影响每个实例路径上所有节点的权重。
- 反馈以迭代方式集成:每次标注后,系统重新评估节点权重,优先关注包含真正异常的区域,同时降低误报区域的优先级。
- 通过将单个树节点视为可调节组件,将主动异常发现(AAD)扩展至基于树的检测器,实现细粒度适应。
- IF-AAD-Leaf 是一种变体,仅对叶节点加权,用于对比分析内部节点加权的影响。
实验结果
研究问题
- RQ1分析师反馈能否有效用于提升基于树的异常检测中真正异常的排名?
- RQ2与仅在集成级别整合反馈相比,在节点级别整合反馈是否能带来更好的异常发现性能?
- RQ3与仅对叶节点加权相比,对内部节点加权如何影响反馈驱动异常检测的性能?
- RQ4IF-AAD 在发现大部分真正异常之前,能将需检查的误报数量减少多少?
- RQ5反馈机制在真实数据集中如何影响算法在特征空间中的关注区域?
主要发现
- IF-AAD 在八个基准数据集上始终优于基线孤立森林,在相同查询次数下可检测到最多两倍的真正异常。
- 平均而言,与基线相比,IF-AAD 将发现 90% 真正异常所需的查询次数减少了 30% 至 50%。
- 反馈机制成功将算法的关注区域从先前标记为正常的区域(如 Abalone 数据集中的 (30,-50) 区域,以及 ANN-Thyroid-1v3 中的 (60,-60) 区域)转移开。
- 算法增加了对先前标记为真正异常区域的关注,如 Abalone 中的 (-20,-20) 区域和 ANN-Thyroid-1v3 中的 (0,-10) 区域,该结果通过 t-SNE 可视化得到验证。
- 仅对叶节点加权的 IF-AAD-Leaf 表现略逊于 IF-AAD,表明内部节点加权有助于性能提升,尽管主要收益仍来自叶节点级别的反馈。
- 反馈集成时间与标注实例数量呈线性关系,在 ANN-Thyroid-1v3 数据集上,100 个标签约需 40 秒,证明了其可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。