QUICK REVIEW

[论文解读] Entity Embedding-based Anomaly Detection for Heterogeneous Categorical Events

Ting Chen, Lu‐An Tang|arXiv (Cornell University)|Aug 26, 2016

Anomaly Detection Techniques and Applications参考文献 18被引用 66

一句话总结

本文提出 APE（基于概率成对交互与实体嵌入的异常检测），一种统一的概率模型，将异构的分类实体嵌入到共享的潜在空间中，以建模事件发生的可能性。通过利用实体嵌入的加权成对交互以及具有上下文相关噪声的噪声对比估计（Noise-Contrastive Estimation），APE 能够高效地从大规模事件空间中学习，并在真实企业监控数据上检测异常方面优于当前最先进方法。

ABSTRACT

Anomaly detection plays an important role in modern data-driven security applications, such as detecting suspicious access to a socket from a process. In many cases, such events can be described as a collection of categorical values that are considered as entities of different types, which we call heterogeneous categorical events. Due to the lack of intrinsic distance measures among entities, and the exponentially large event space, most existing work relies heavily on heuristics to calculate abnormal scores for events. Different from previous work, we propose a principled and unified probabilistic model APE (Anomaly detection via Probabilistic pairwise interaction and Entity embedding) that directly models the likelihood of events. In this model, we embed entities into a common latent space using their observed co-occurrence in different events. More specifically, we first model the compatibility of each pair of entities according to their embeddings. Then we utilize the weighted pairwise interactions of different entity types to define the event probability. Using Noise-Contrastive Estimation with "context-dependent" noise distribution, our model can be learned efficiently regardless of the large event space. Experimental results on real enterprise surveillance data show that our methods can accurately detect abnormal events compared to other state-of-the-art abnormal detection techniques.

研究动机与目标

为解决在异构分类事件数据中进行无监督异常检测的挑战，传统方法因缺乏内在距离度量和事件空间呈指数级增长而依赖启发式方法。
开发一种统一的、基于原理的概率框架，直接建模事件发生的可能性，而非依赖启发式异常评分。
学习有意义的实体表示，以捕捉不同类型分类实体之间的语义相似性与兼容性。
即使在可能的事件组合呈组合爆炸性增长的情况下，也能实现在大规模事件数据上的高效训练。
在真实世界安全应用中，提高对未知或此前未见的异常事件的检测准确性。

提出的方法

通过建模事件中实体共现模式来学习实体嵌入，将异构的分类实体投影到共享的低维潜在空间中。
利用学习到的嵌入向量的点积来量化实体之间的成对兼容性，捕捉交互强度。
事件概率被定义为不同实体类型之间成对交互的加权和，从而实现对复杂事件结构的灵活建模。
采用具有上下文相关噪声分布的噪声对比估计（NCE）来高效训练模型，避免对完整事件空间进行穷举计算。
模型端到端进行训练，以最大化观察到的正常事件的似然概率，异常评分则来源于预测事件概率的倒数。
使用 t-SNE 可视化学习到的嵌入，验证语义相似的实体在潜在空间中聚集在一起。

实验结果

研究问题

RQ1统一的概率模型是否能够在不依赖启发式异常评分的情况下，有效学习异构分类事件数据中的事件发生概率？
RQ2实体嵌入是否能够捕捉事件数据中不同类型分类实体之间的有意义语义关系与兼容性？
RQ3具有上下文相关噪声的噪声对比估计是否能够实现在事件空间呈指数级增长的大规模事件数据上的高效训练？
RQ4所提出的 APE 模型是否能够比现有最先进技术更准确地检测未知异常事件？
RQ5学习到的实体嵌入是否能揭示可解释的模式（如区分工作时间与非工作时间、根用户行为等），从而辅助异常检测？

主要发现

APE 模型在真实企业监控数据上的异常检测性能优于最先进方法，表现出更高的异常事件识别准确性。
t-SNE 可视化结果证实，学习到的实体嵌入捕捉了有意义的语义信息：相似的用户类型聚集在一起，根用户与其他用户明显分离。
该模型成功学习了时间模式，例如在小时嵌入空间中清晰区分了工作时间与非工作时间，即使在没有先验知识的情况下也是如此。
APE 的性能对负样本数量具有鲁棒性，随着负样本数量增加仅获得微小提升，表明学习过程稳定。
在 NCE 中使用上下文相关噪声可实现高效训练，无需枚举完整事件空间，使方法具备可扩展性。
加权成对交互机制相比考虑所有可能交互的模型，能有效减少过拟合并提升可解释性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。