QUICK REVIEW

[论文解读] Cybersecurity Information Exchange with Privacy (CYBEX-P) and TAHOE -- A Cyberthreat Language

Farhan Sadique, Ignacio Astaburuaga|arXiv (Cornell University)|Jan 1, 2021

Network Security and Intrusion Detection参考文献 24被引用 2

一句话总结

本文提出 CYBEX-P，一种隐私保护的网络安全信息共享框架，采用 TAHOE——一种基于图的网络威胁语言——实现威胁数据的安全、自动化关联分析。该框架利用在线分类器实现 86% 准确率的实时钓鱼 URL 检测，同时支持细粒度属性级访问控制及通过 ThreatRank 和 TDQL 生成可操作规则。

ABSTRACT

Cybersecurity information sharing (CIS) is envisioned to protect organizations more effectively from advanced cyber attacks. However, a completely automated CIS platform is not widely adopted. The major challenges are: (1) the absence of a robust cyber threat language (CTL) and (2) the concerns over data privacy. This work introduces Cybersecurity Information Exchangewith Privacy (CYBEX-P), as a CIS framework, to tackle these challenges. CYBEX-P allows organizations to share heterogeneous data with granular, attribute based privacy control. It correlates the data to automatically generate intuitive reports and defensive rules. To achieve such versatility, we have developed TAHOE - a graph based CTL. TAHOE is a structure for storing,sharing and analyzing threat data. It also intrinsically correlates the data. We have further developed a universal Threat Data Query Language (TDQL). In this paper, we propose the system architecture for CYBEX-P. We then discuss its scalability and privacy features along with a use case of CYBEX-P providing Infrastructure as a Service (IaaS). We further introduce TAHOE& TDQL as better alternatives to existing CTLs and formulate ThreatRank - an algorithm to detect new malicious even

研究动机与目标

解决缺乏标准化、隐私感知且自动化的网络安全信息共享平台的问题。
克服现有网络威胁语言（CTLs）在内在关联性和灵活数据建模方面的局限性。
实现威胁数据的自动化、实时分析，并输出可操作的结果，如防火墙规则和警报。
提供细粒度、基于属性的隐私控制，实现数据共享而不暴露敏感属性。
基于 IaaS 和通用查询能力，构建可扩展、可扩展的威胁情报共享基础设施。

提出的方法

CYBEX-P 采用模块化架构，包含数据摄入、分析、报告和隐私保护模块，实现端到端的威胁共享。
TAHOE 是一种基于图的网络威胁语言，将威胁数据建模为节点和关系，实现事件间的内在关联。
TDQL 是一种通用查询语言，旨在使用标准化语法从任意数据库中检索威胁数据。
ThreatRank 是一种新颖的算法，通过将新事件与 TAHOE 中的历史模式相关联，检测此前未见的恶意事件。
采用在线二阶感知机（SOP）分类器对不断增长的 URL 数据集进行增量学习，避免完整重训练。
通过基于属性的访问控制和安全计算机制实现隐私保护，支持在不解密的情况下对加密数据进行关联。

实验结果

研究问题

RQ1如何在实现自动化威胁关联的同时，兼顾强隐私保护？
RQ2一种通用且可扩展的网络威胁语言的关键需求是什么？其应支持异构威胁数据的存储、共享、分析与关联。
RQ3基于图的 CTL（如 TAHOE）是否能在高保真度下优于现有 CTL，在建模复杂且不断演变的网络威胁方面？
RQ4在线学习分类器在处理无界、持续演化的钓鱼 URL 数据集时，其准确性是否能保持较高水平？
RQ5一种隐私保护的自动化系统能否实时从关联的威胁数据中生成可操作的防御规则（如防火墙规则）？

主要发现

在线二阶感知机（SOP）分类器在约 96,000 个 URL 的数据集上实现了 86% 的准确率，证明其适用于无界数据增长场景。
随着样本数量增加，SOP 分类器的 ROC AUC 持续提升，表明在持续摄入数据的情况下具有进一步提高准确率的潜力。
批量随机森林分类器在 57,000 个 URL 的较小数据集上达到 91% 的准确率，但由于无法处理无界数据增长，不适用。
CYBEX-P 在真实 IaaS 部署中成功演示了实时钓鱼 URL 检测，并实现了自动化报告与警报生成。
该系统的隐私保护架构支持属性级访问控制，并可在不解密的情况下实现加密威胁数据的关联。
ThreatRank 通过将新事件与 TAHOE 图模型中的历史模式相关联，有效检测了新型恶意事件。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。