[论文解读] Predicting enterprise cyber incidents using social network analysis on the darkweb hacker forums
本文提出了一种基于暗网黑客论坛回复网络的社会网络分析框架,用于预测企业网络攻击。通过识别专家用户并分析其间的路径结构,该方法实现了0.53的F1分数,显著优于随机基线(F1=0.37),表明互动动态比中心性或发帖统计更具预测力。
With rise in security breaches over the past few years, there has been an increasing need to mine insights from social media platforms to raise alerts of possible attacks in an attempt to defend conflict during competition. We use information from the darkweb forums by leveraging the reply network structure of user interactions with the goal of predicting enterprise cyber attacks. We use a suite of social network features on top of supervised learning models and validate them on a binary classification problem that attempts to predict whether there would be an attack on any given day for an organization. We conclude from our experiments using information from 53 forums in the darkweb over a span of 12 months to predict real world organization cyber attacks of 2 different security events that analyzing the path structure between groups of users is better than just studying network centralities like Pagerank or relying on the user posting statistics in the forums.
研究动机与目标
- 通过利用暗网黑客论坛中的非结构化数据,应对日益增长的企业网络事件威胁。
- 开发一种预测模型,利用用户互动动态识别现实世界网络攻击的早期预警信号。
- 评估专家用户之间的网络路径结构是否比传统网络中心性或论坛活动指标具有更好的预测能力。
- 在真实世界网络攻击事件上验证该模型,重点关注恶意邮件事件和更广泛的网络安全事件。
- 探索利用暗网讨论模式作为主动网络威胁情报可靠指标的可行性。
提出的方法
- 从暗网论坛互动中构建有向回复网络,以建模用户通信动态。
- 将在规定时间窗口内其关于漏洞的帖子获得大量关注的用户识别为“专家”。
- 基于专家为中心的互动、论坛/用户统计数据以及网络中心性度量(如中介中心性、出度)提取时间序列特征。
- 使用Group lasso正则化的逻辑回归模型,基于每日攻击标签进行训练。
- 在高活跃周(例如,每周攻击次数>5次)进行受控评估,以在威胁集中时期评估性能。
- 通过F1分数与随机基线和先验概率基线对比,评估模型性能。
实验结果
研究问题
- RQ1暗网论坛中的回复网络结构是否比传统网络中心性度量更有效地预测现实世界的企业网络攻击?
- RQ2分析围绕讨论漏洞的专家用户之间的互动动态是否能提高攻击预测的准确性?
- RQ3基于路径的特征(如中介中心性)与发帖统计和中心性度量相比,在预测网络事件方面表现如何?
- RQ4在攻击频率较高的时期,论坛数据的预测能力是否会增强?
- RQ5与基线模型相比,基于网络的特征是否能降低网络攻击预测中的误报率?
主要发现
- 表现最佳的特征——专家之间的路径结构——实现了0.53的F1分数,显著优于随机基线的0.37。
- 以专家为中心的特征在恶意邮件事件中取得了最高的F1分数(0.55),其次是论坛/用户统计数据(0.51)和基于中心性的特征(0.49)。
- 在中心性度量中,中介中心性取得了最佳F1分数(0.58),表明基于路径的分析比度数或PageRank更具信息量。
- 当限制在高活跃周(>5起攻击/周)时,公共社区特征的F1分数达到0.67,精确率为0.7,召回率为0.63。
- 在高活跃周中,漏洞提及特征的F1分数最高,达到0.63,表明在攻击高峰期信号更强。
- 随机森林并未提升性能,表明对于该数据集,逻辑回归结合Group lasso正则化为最优选择。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。