[论文解读] PIDSMaker: Building and Evaluating Provenance-based Intrusion Detection Systems
PIDSMaker 提供一个开源框架(v2.0.0),用于开发和评估基于溯源的入侵检测系统,具备标准化流程、真实标签和基于组件的原型设计,覆盖八个现有的 PIDS。
Recent provenance-based intrusion detection systems (PIDSs) have demonstrated strong potential for detecting advanced persistent threats (APTs) by applying machine learning to system provenance graphs. However, evaluating and comparing PIDSs remains difficult: prior work uses inconsistent preprocessing pipelines, non-standard dataset splits, and incompatible ground-truth labeling and metrics. These discrepancies undermine reproducibility, impede fair comparison, and impose substantial re-implementation overhead on researchers. We present PIDSMaker, an open-source framework for developing and evaluating PIDSs under consistent protocols. PIDSMaker consolidates eight state-of-the-art systems into a modular, extensible architecture with standardized preprocessing and ground-truth labels, enabling consistent experiments and apples-to-apples comparisons. A YAML-based configuration interface supports rapid prototyping by composing components across systems without code changes. PIDSMaker also includes utilities for ablation studies, hyperparameter tuning, multi-run instability measurement, and visualization, addressing methodological gaps identified in prior work. We demonstrate PIDSMaker through concrete use cases and release it with preprocessed datasets and labels to support shared evaluation for the PIDS community.
研究动机与目标
- 推动在基于溯源的入侵检测系统(PIDS)中实现可重复评估的需求。
- 将多种最新的 PIDS 整合到一个统一的、模块化框架中,以实现可比性强的对比。
- 为关键数据集(DARPA TC 和 OpTC)提供标准化的预处理流程和真实标签。
- 提供基于 YAML 的配置以实现快速原型、消融和超参数调优。
- 包括用于不稳定性测量和可视化的实验工具,以解决前人研究中的方法学不足。
提出的方法
- 模块化流水线架构,可在 PIDS 之间互换组件。
- 为已建立的溯源数据集(DARPA TC E3/E5 和 OpTC)提供标准化的预处理和真实标签。
- 基于 YAML 的配置,以在不修改代码的情况下组合新的 PIDS 变体。
- 支持磁盘缓存以避免重复计算并在配置变更时实现高效迭代。
- 支持消融研究、超参数调优、不稳定性测量和可视化。
- 开源发布,提供预处理数据集和真实标签以支持共享评测。

实验结果
研究问题
- RQ1如何在基于溯源的入侵检测研究中提升可重复性和公平比较?
- RQ2一个统一框架是否可以减少重新实现的工作量,同时实现 PIDS 变体的快速原型设计?
- RQ3标准数据集、真实标签和评估协议对跨系统比较有什么影响?
- RQ4消融和超参数调优在诊断 PIDS 组件间性能差异方面有多大作用?
- RQ5需要哪些机制来衡量和解释自监督 PIDS 的运行间不稳定性?
主要发现
- 将八个最先进的 PIDS 集成到一个模块化代码库中以实现一致评测。
- 为 DARPA TC E3/E5 和 OpTC 数据集提供标准化的预处理和真实标签。
- 实现基于 YAML 的、以配置驱动的原型设计,可以在不编写代码的情况下跨系统混合组件。
- 内置用于消融研究、超参数调优、不稳定性测量和可视化的工具。
- 提供磁盘缓存以加速迭代实验,并支持多次运行分析以提升可靠性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。