QUICK REVIEW

[论文解读] Anomaly Detection in Log Data using Graph Databases and Machine Learning to Defend Advanced Persistent Threats

Timo Schindler|arXiv (Cornell University)|Jan 1, 2017

Network Security and Intrusion Detection被引用 12

一句话总结

本文提出了一种基于图数据库与机器学习的框架，通过建模攻击杀伤链并分析日志事件序列，以检测高级持续性威胁（APTs）。通过结合时间序列日志处理与经支持向量机增强的有向图模型，该系统实现了快速、精准的异常检测——在模拟 APT 攻击中表现出色，检测时间显著缩短，并具备追踪攻击者路径与受损系统的能力。

ABSTRACT

Advanced Persistent Threats (APTs) are a main impendence in cyber security of computer networks. In 2015, a successful breach remains undetected 146 days on average, reported by [Fi16].With our work we demonstrate a feasible and fast way to analyse real world log data to detect breaches or breach attempts. By adapting well-known kill chain mechanisms and a combine of a time series database and an abstracted graph approach, it is possible to create flexible attack profiles. Using this approach, it can be demonstrated that the graph analysis successfully detects simulated attacks by analysing the log data of a simulated computer network. Considering another source for log data, the framework is capable to deliver sufficient performance for analysing real-world data in short time. By using the computing power of the graph database it is possible to identify the attacker and furthermore it is feasible to detect other affected system components. We believe to significantly reduce the detection time of breaches with this approach and react fast to new attack vectors.

研究动机与目标

为解决高级持续性威胁（APTs）长期未被发现的问题，根据 Fireeye 报告，2015 年 APT 攻击的平均持续时间长达 146 天。
开发一种可扩展、高效且符合隐私保护要求的解决方案，利用图数据库与机器学习技术在真实世界日志数据中检测 APT 攻击。
通过将攻击杀伤链建模为具有抽象事件序列的有向图，实现对复杂多阶段攻击的检测。
通过支持数据匿名化处理，在不损失检测精度的前提下，确保符合德国数据保护法律（§3a BDSG）的要求。
通过仿真与真实世界数据处理，证明该框架在多种日志源与攻击向量下的适应能力。

提出的方法

该框架采用改进的杀伤链模型作为有向图，以表示 APT 攻击的各个阶段，包括侦察、投递、利用与数据外传。
原始日志事件按时间顺序存储在时间序列数据库中，并映射到图数据库中抽象事件序列的中间层。
抽象层通过将相关日志事件分组为更高层级的序列，实现对偏离路径与循环攻击模式的灵活检测。
使用支持向量机（SVMs）对标注过的日志数据（正常与恶意）进行训练，以分类攻击模式并检测异常。
系统对来自多个来源的异构日志数据进行归一化与增强处理，以确保一致性并提升检测精度。
该框架可与现有 SIEM 系统集成，并利用图数据库的查询能力，高效遍历与关联攻击指标。

实验结果

研究问题

RQ1基于图的模型能否有效利用日志事件序列表示并检测多阶段 APT 攻击模式？
RQ2将时间序列日志处理与图数据库技术结合，能否提升 APT 检测的速度与精度？
RQ3当机器学习模型（特别是 SVM）在模拟与真实世界攻击场景下进行训练时，其在日志数据中检测异常的能力达到何种程度？
RQ4该框架在处理符合数据保护法规要求的匿名化日志数据时，能否保持高检测精度？
RQ5该系统在识别初始入侵的同时，对次级受损系统与攻击者路径的识别能力如何？

主要发现

该框架通过基于图的杀伤链模型关联日志事件，成功检测到模拟的 APT 攻击，在受控环境中展现出高检测精度。
利用图数据库查询，系统高效追踪了攻击者的行为并识别出受损系统，从而支持快速响应事件。
与传统基于签名的检测方法相比，该方法显著缩短了 APT 攻击的检测时间，结果表明攻击阶段的识别更加迅速。
系统在真实世界日志数据处理中表现出足够的性能，得益于优化的图查询执行，可快速处理大规模数据。
SVM 与事件序列抽象的结合显著提升了异常检测的精度，尤其对新型未见攻击变种的检测效果更佳。
在处理匿名化数据时，该框架保持了检测精度，证实符合德国数据保护标准（§3a BDSG）的要求。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。