QUICK REVIEW

[论文解读] LSTM-Based System-Call Language Modeling and Robust Ensemble Method for Designing Host-Based Intrusion Detection Systems

Gyuwan Kim, Hayoon Yi|arXiv (Cornell University)|Nov 6, 2016

Network Security and Intrusion Detection参考文献 26被引用 90

一句话总结

本文提出了一种基于LSTM的系统调用语言建模方法，用于基于异常的主机入侵检测，通过利用序列语义来建模正常行为，从而减少误报率。该方法引入了一种新颖的鲁棒集成方法，将多个阈值分类器结合，显著提升了在基准数据集上的检测准确率和鲁棒性，同时保持了较低的训练开销和较高的可移植性。

ABSTRACT

In computer security, designing a robust intrusion detection system is one of the most fundamental and important problems. In this paper, we propose a system-call language-modeling approach for designing anomaly-based host intrusion detection systems. To remedy the issue of high false-alarm rates commonly arising in conventional methods, we employ a novel ensemble method that blends multiple thresholding classifiers into a single one, making it possible to accumulate 'highly normal' sequences. The proposed system-call language model has various advantages leveraged by the fact that it can learn the semantic meaning and interactions of each system call that existing methods cannot effectively consider. Through diverse experiments on public benchmark datasets, we demonstrate the validity and effectiveness of the proposed method. Moreover, we show that our model possesses high portability, which is one of the key aspects of realizing successful intrusion detection systems.

研究动机与目标

为解决传统基于异常的主机入侵检测系统（HIDS）中误报率过高的问题。
利用深度学习将系统调用序列建模为自然语言，以捕捉系统调用之间的语义和上下文关系。
开发一种紧凑、可移植且高效的检测框架，避免对大型模式数据库或词典的依赖。
通过引入一种新颖的集成方法，将多个阈值分类器聚合为单一、更鲁棒的分类器，从而减少误报。
证明该方法在多种公开基准数据集上的有效性与泛化能力。

提出的方法

系统使用长短期记忆（LSTM）网络将系统调用序列建模为一种语言，学习单个调用的语义及其上下文交互关系。
在系统调用轨迹上端到端训练神经语言模型，以估计调用序列的概率，从而通过低概率序列实现异常检测。
通过反向传播学习系统调用的密集向量表示（嵌入），使得语义相似的调用在嵌入空间中聚集。
提出一种新颖的鲁棒集成方法，通过聚合多个基于阈值的分类器的输出，生成单一、更可靠的检测决策，从而降低误报率。
该集成方法专注于累积‘高度正常’的序列，提高对细微异常的敏感性，同时抑制噪声。
框架使用标准序列预测损失（如交叉熵）进行训练，并通过测试序列的似然得分进行评估。

实验结果

研究问题

RQ1基于LSTM的语言模型能否有效学习系统调用之间的语义和序列关系，以准确建模正常系统行为？
RQ2所提出的集成方法在降低HIDS中误报率方面，与传统阈值方法相比表现如何？
RQ3该系统调用语言模型在不同基准数据集和系统工作负载上的泛化能力如何？
RQ4在不依赖攻击特征签名的情况下，模型能否通过学习正常行为模式来检测零日或此前未见的攻击？
RQ5与现有的基于签名或特征的HIDS方法相比，该模型的可移植性和计算效率如何？

主要发现

所提出的系统调用语言模型成功地在学习到的嵌入空间中将功能相似的系统调用（如read/write、open/close、select/poll）聚类，证实了其语义理解能力。
该模型表现出高度可移植性，由于其紧凑的序列化架构，训练开销极低，参数存储量小。
鲁棒集成方法通过结合多个分类器，显著降低了误报率，优于单一阈值分类方法。
在公开基准数据集上，该方法实现了最先进的检测性能，在多种工作负载下均表现出高准确率和强鲁棒性。
该模型有效捕捉了系统调用序列中的长距离依赖关系，能够检测出传统基于频率的方法所遗漏的复杂异常模式。
该框架计算效率高，仅依赖于序列矩阵运算，适合实时部署。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。