QUICK REVIEW

[论文解读] Discovering Signals from Web Sources to Predict Cyber Attacks

Palash Goyal, K. S. M. Tozammel Hossain|arXiv (Cornell University)|Jun 8, 2018

Network Security and Intrusion Detection参考文献 27被引用 25

一句话总结

本文提出了一种机器学习框架，利用来自公共网络源（如社交媒体、暗网论坛和漏洞数据库）的外部信号来预测针对性的网络攻击。通过将自回归模型与门控循环单元（GRUs）结合时间序列的网络安全相关术语频率，该系统在预测恶意软件、恶意电子邮件和恶意目标方面显著提升了F1分数，表明来自多样化在线来源的组织特定信号可提高预测准确性。

ABSTRACT

Cyber attacks are growing in frequency and severity. Over the past year alone we have witnessed massive data breaches that stole personal information of millions of people and wide-scale ransomware attacks that paralyzed critical infrastructure of several countries. Combating the rising cyber threat calls for a multi-pronged strategy, which includes predicting when these attacks will occur. The intuition driving our approach is this: during the planning and preparation stages, hackers leave digital traces of their activities on both the surface web and dark web in the form of discussions on platforms like hacker forums, social media, blogs and the like. These data provide predictive signals that allow anticipating cyber attacks. In this paper, we describe machine learning techniques based on deep neural networks and autoregressive time series models that leverage external signals from publicly available Web sources to forecast cyber attacks. Performance of our framework across ground truth data over real-world forecasting tasks shows that our methods yield a significant lift or increase of F1 for the top signals on predicted cyber attacks. Our results suggest that, when deployed, our system will be able to provide an effective line of defense against various types of targeted cyber attacks.

研究动机与目标

开发一种自动化系统，从公开可用的网络源中识别即将发生网络攻击的预测信号。
通过将外部时间序列信号整合到机器学习模型中，超越历史攻击数据，提升网络威胁预测能力。
量化不同网络信号对各类网络攻击预测性能的影响。
通过识别在线活动中的组织特定、高影响力的信号，为网络安全防御提供可操作的见解。
实现早期预警系统，以支持主动的网络安全政策和事件缓解措施。

提出的方法

从多样化的公开网络源（包括暗网论坛、社交媒体、博客和漏洞追踪器）实时采集数据。
从每个源提取网络安全相关关键词（如“零日漏洞”、“勒索软件”）的每日出现频次时间序列，形成外部信号。
应用自回归模型（ARIMA 和 ARIMAX），将历史攻击数据与外部信号结合用于预测。
采用门控循环神经网络（GRUs）对攻击模式和外部信号序列中的时间依赖性进行建模。
在两家组织的真实数据上训练并评估模型，涵盖三种攻击类型：终端恶意软件、恶意电子邮件和恶意目标。
使用信号融合技术，评估不同组织和攻击类型下单一与组合信号的预测能力。

实验结果

研究问题

RQ1哪些公开可用的网络源包含可预测未来网络攻击的信号？
RQ2与仅使用历史攻击数据的模型相比，社交媒体、暗网和博客的外部时间序列信号在预测网络攻击时如何提升F1分数？
RQ3最具预测性的信号是否因不同组织和网络攻击类型而异？
RQ4当引入外部信号时，GRU等深度学习模型是否能优于经典自回归模型（如ARIMA）来预测网络威胁？
RQ5多种信号的组合在多大程度上能提升预测的稳健性和准确性？

主要发现

将网络源的外部信号整合到预测中，显著提升了网络攻击预测的F1分数，所有三种攻击类型（终端恶意软件、恶意电子邮件、恶意目标）均实现可测量的性能提升。
发现组织特定的信号比通用信号更具预测性，表明该系统能够适应各组织独特的威胁特征。
暗网论坛和社交媒体的信号是表现最佳的预测因子之一，尤其在零日漏洞利用和勒索软件活动预测中表现突出。
当引入外部信号时，基于GRU的模型优于经典自回归模型（如ARIMA），证明了建模非线性时间模式的价值。
表现最佳的信号因组织和攻击类型而异，表明有效的早期预警系统必须针对特定威胁环境进行定制。
信号融合（组合多个高性能信号）在提升周级预测方面展现出潜力，表明通过集成多信号可增强预测的稳健性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。