[论文解读] Detecting Anomalous User Behavior Using an Extended Isolation Forest Algorithm: An Enterprise Case Study
本文提出了一种扩展的孤立森林算法,用于在无需训练数据中包含标注异常的情况下,检测企业环境中的异常用户行为。通过适配算法以处理类别型特征,并结合多种行为特征,该系统在识别异常用户操作方面实现了高召回率(高达99.91%),尤其是当引入基于时间的访问模式时效果更佳。
Anomalous user behavior detection is the core component of many information security systems, such as intrusion detection, insider threat detection and authentication systems. Anomalous behavior will raise an alarm to the system administrator and can be further combined with other information to determine whether it constitutes an unauthorised or malicious use of a resource. This paper presents an anomalous user behaviour detection framework that applies an extended version of Isolation Forest algorithm. Our method is fast and scalable and does not require example anomalies in the training data set. We apply our method to an enterprise dataset. The experimental results show that the system is able to isolate anomalous instances from the baseline user model using a single feature or combined features.
研究动机与目标
- 开发一种无需在训练过程中提供标注异常样本的无监督用户行为异常检测系统。
- 扩展孤立森林算法,以支持用户访问日志中常见的类别型数据特征。
- 评估单一特征与组合特征在真实企业日志数据中检测异常的有效性。
- 评估系统在大规模企业环境中区分个体用户正常与异常行为模式的能力。
提出的方法
- 解析并预处理企业日志文件,提取用户特定的行为特征,如匹配规则、签名、设备、浏览器及访问时间。
- 使用支持类别型特征的扩展孤立森林算法构建基线用户模型,通过将类别特征编码为数值表示。
- 在训练集(用户日志的80%)上训练孤立森林,构建隔离树以建模正常行为。
- 将新用户记录映射到已训练的隔离树中,并基于到达叶节点的平均路径长度计算异常得分。
- 将异常得分高于阈值(设定为0.80)的记录标记为潜在异常。
- 采用10折交叉验证并进行10次随机运行以评估系统性能,测量真正例、假正例、精确率、召回率和准确率。
实验结果
研究问题
- RQ1扩展的孤立森林算法是否能在无需训练集中标注异常的情况下,有效检测企业日志数据中的异常用户行为?
- RQ2引入类别型特征(如设备、浏览器、匹配规则)对异常检测系统的检测性能有何影响?
- RQ3组合多种行为特征是否能提升系统区分正常与异常用户行为的能力,相较于使用单一特征?
- RQ4系统在检测个体用户特异性异常行为与检测与其他用户行为相似的异常行为方面,效果如何?
- RQ5访问时间在识别异常用户行为模式中起到何种作用?
主要发现
- 当仅使用单一特征(设备检查)时,系统召回率达到99.91%,表明对实际异常行为具有极强的检测能力。
- 组合特征系统(四个特征)实现了99.02%的召回率和51.43%的精确率,表明在多样化行为模式下具有良好的检测效果。
- 将访问时间作为特征引入后,检测性能得到提升,使用时间与其他四个特征的系统召回率达到98.92%。
- 所有系统中假正例率均较高(范围在94.03%至99.75%之间),表明许多正常行为被错误地标记为异常,尤其是在特征方差较低时更为明显。
- 假正例的直方图显示,495名用户中有258名用户无任何假正例,122名用户仅有一个假正例,表明大多数用户的行为模式较为稳定。
- 以用户ID 58376为例,其两条记录的异常得分较高(0.9307),经确认因特征变化而为异常,验证了系统检测细微行为偏差的能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。