Skip to main content
QUICK REVIEW

[论文解读] A Robust Comparison of the KDDCup99 and NSL-KDD IoT Network Intrusion Detection Datasets Through Various Machine Learning Algorithms

Suchet Sapre, Pouyan Ahmadi|arXiv (Cornell University)|Dec 31, 2019
Network Security and Intrusion Detection参考文献 4被引用 49
一句话总结

本文在多种机器学习分类器下对 KDDCup99 与 NSL-KDD IoT 入侵数据集进行比较,发现 NSL-KDD 质量更高,但由于其严格性和冗余度降低,导致准确率较低。

ABSTRACT

In recent years, as intrusion attacks on IoT networks have grown exponentially, there is an immediate need for sophisticated intrusion detection systems (IDSs). A vast majority of current IDSs are data-driven, which means that one of the most important aspects of this area of research is the quality of the data acquired from IoT network traffic. Two of the most cited intrusion detection datasets are the KDDCup99 and the NSL-KDD. The main goal of our project was to conduct a robust comparison of both datasets by evaluating the performance of various Machine Learning (ML) classifiers trained on them with a larger set of classification metrics than previous researchers. From our research, we were able to conclude that the NSL-KDD dataset is of a higher quality than the KDDCup99 dataset as the classifiers trained on it were on average 20.18% less accurate. This is because the classifiers trained on the KDDCup99 dataset exhibited a bias towards the redundancies within it, allowing them to achieve higher accuracies.

研究动机与目标

  • 评估 KDDCup99 与 NSL-KDD 在 IoT 入侵检测方面的数据质量差异。
  • 在这两个数据集上使用更广泛的指标评估多种机器学习分类器。
  • 了解数据集特征(冗余、类别平衡)如何影响分类器性能。
  • 基于实证结果为入侵检测系统研究中的数据集选择提供指导。

提出的方法

  • 对两个数据集中的分类特征进行独热编码,并对训练/测试划分应用 L2 归一化。
  • 在两个数据集上训练并评估朴素贝叶斯、支持向量机、随机森林和人工神经网络。
  • 使用二分类和类型分类任务,人工神经网络架构为两层隐藏层(每层 100 个节点)。
  • 对于 SVM,使用线性核并对二分类使用训练数据的 0.05% 随机样本。
  • 对于随机森林,使用 5 个估计器,并对二分类和类型分类均使用 0.1% 的随机样本。
  • 用准确度评估类型分类性能,用精确度/召回率/F1(binary)评估二分类。
  • 使用 Adam 最优化、20 次训练的早停耐心以及模型检查点;采用交叉熵损失和 softmax/sigmoid 输出。

实验结果

研究问题

  • RQ1在不同机器学习分类器下,KDDCup99 与 NSL-KDD 在 IoT 入侵检测方面的数据质量有何差异?
  • RQ2是否由于冗余,基于 KDDCup99 训练的分类器获得更高的准确性? NSL-KDD 的更高质量是否会降低这种偏差?
  • RQ3在数据集之间,类型分类和二分类任务的分类器性能有何差异?
  • RQ4数据集特定特征(类别不平衡、冗余)对精确度、召回率和 F1 分数有何影响?
  • RQ5考虑到 NSL-KDD 的严格性,集成或堆叠方法能否提升其性能?

主要发现

  • NSL-KDD 的质量高于 KDDCup99,由于去除了易分类记录,基于 NSL-KDD 的分类器平均准确率比 KDDCup99 低 20.18%。
  • 人工神经网络在两个数据集上一直提供最高的类型分类准确率,但在 NSL-KDD 上训练的分类器显示明显更低的召回率(例如,NSL-KDD 的召回率平均约为 0.556,而 KDDCup99 为 0.902)。
  • 二分类结果在两个数据集上都偏向 SVM 的 F1 分数,而随机森林提供最佳精确度;NSL-KDD 的平均 F1 明显较低(0.6630)比 KDDCup99(0.9452)。
  • KDDCup99 的 PCA 图显示入侵类型之间的分离度更大,而 NSL-KDD 显示更多重叠,与 KDDCup99 更易分类相一致,但也表明 KDDCup99 的冗余。
  • R2L 和 U2R 入侵类型在 NSL-KDD 上被 ANN 很难检测到,真正阳性率非常低,表明这些类别仍存在数据质量问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。