Skip to main content
QUICK REVIEW

[논문 리뷰] LSTM-Based System-Call Language Modeling and Robust Ensemble Method for Designing Host-Based Intrusion Detection Systems

Gyuwan Kim, Hayoon Yi|arXiv (Cornell University)|2016. 11. 06.
Network Security and Intrusion Detection참고 문헌 26인용 수 90
한 줄 요약

이 논문은 순차적 의미를 활용하여 정상 행동를 모델링하고 가짜 경고를 줄이기 위해 LSTM 기반의 시스템 호출 언어 모델링 접근법을 제안한다. 이는 기존의 이상 탐지 기반 호스트 침입 탐지 시스템(HIDS)에서 발생하는 높은 가짜 경고 비율 문제를 해결하기 위한 것으로, 다수의 임계값 기반 분류기를 조합하는 새로운 강건한 앙상블 방법을 도입하여 벤치마크 데이터셋에서 탐지 정확도와 강건성을 크게 향상시키며, 동시에 낮은 학습 오버헤드와 높은 이식 가능성을 유지한다.

ABSTRACT

In computer security, designing a robust intrusion detection system is one of the most fundamental and important problems. In this paper, we propose a system-call language-modeling approach for designing anomaly-based host intrusion detection systems. To remedy the issue of high false-alarm rates commonly arising in conventional methods, we employ a novel ensemble method that blends multiple thresholding classifiers into a single one, making it possible to accumulate 'highly normal' sequences. The proposed system-call language model has various advantages leveraged by the fact that it can learn the semantic meaning and interactions of each system call that existing methods cannot effectively consider. Through diverse experiments on public benchmark datasets, we demonstrate the validity and effectiveness of the proposed method. Moreover, we show that our model possesses high portability, which is one of the key aspects of realizing successful intrusion detection systems.

연구 동기 및 목표

  • 기존의 이상 탐지 기반 호스트 침입 탐지 시스템(HIDS)에서 발생하는 높은 가짜 경고 비율 문제를 해결하기 위해.
  • 딥 러닝을 활용해 시스템 호출 시퀀스를 자연어로 모델링하여 시스템 호출 간의 의미적 및 맥락적 관계를 포착하기 위해.
  • 큰 패tern 데이터베이스나 사전이 필요 없이도 컴act하고 이식 가능하며 효율적인 탐지 프레임워크를 개발하기 위해.
  • 다수의 임계값 기반 분류기를 통합하여 단일이고 더 강력한 분류기로 만드는 새로운 앙상블 방법을 도입하여 가짜 경고를 줄이기 위해.
  • 다양한 공개 벤치마크 데이터셋에서 메서드의 효과성과 일반화 능력을 입증하기 위해.

제안 방법

  • 시스템은 장기적 단기 기억(LSTM) 네트워크를 사용하여 시스템 호출 시퀀스를 언어로 모델링하여 개별 호출의 의미와 그들의 맥락적 상호작용을 학습한다.
  • 시스템 호출 트레이스에 대해 엔드 투 엔드로 신경망 언어 모델을 훈련시켜 호출 시퀀스의 가능도를 추정함으로써, 낮은 가능도를 가진 시퀀스를 기반으로 이상 탐지 기능을 수행한다.
  • 역전파를 통해 시스템 호출의 조밀한 벡터 표현(임bedding)을 학습하며, 의미적으로 유사한 호출들은 임베딩 공간 내에서 군집화된다.
  • 새로운 강건한 앙상블 방법은 다수의 임계값 기반 분류기의 출력을 통합하여 단일이고 더 신뢰할 수 있는 탐지 결정을 도출함으로써 가짜 경고를 줄인다.
  • 앙상블 방법은 '매우 정상적인' 시퀀스를 누적하는 데 집중하여 소음은 억제하면서도 미세한 이상에 대한 감도를 향상시킨다.
  • 프레임워크는 표준 시퀀스 예측 손실(예: 교차 엔트로피)을 사용해 훈련되며, 테스트 시퀀스에 대한 가능도 점수를 통해 평가된다.

실험 결과

연구 질문

  • RQ1LSTM 기반 언어 모델이 시스템 호출 간의 의미적 및 순차적 관계를 효과적으로 학습하여 정상 시스템 행동를 모델링할 수 있는가?
  • RQ2제안된 앙상블 방법은 기존의 단순 임계값 기반 방법에 비해 HIDS에서 가짜 경고 비율을 얼마나 줄일 수 있는가?
  • RQ3시스템 호출 언어 모델이 다양한 공개 벤치마크 데이터셋과 시스템 워크로드 간에 얼마나 일반화될 수 있는가?
  • RQ4공격 서명에 대한 사전 지식 없이도 정상 행동 패턴을 학습함으로써 제로데이 또는 이전에 알려지지 않은 공격을 탐지할 수 있는가?
  • RQ5기존의 시그니처 기반 또는 특징 기반 HIDS 접근법에 비해 모델의 이식 가능성과 계산 효율성은 어떻게 비교되는가?

주요 결과

  • 제안된 시스템 호출 언어 모델은 학습된 임베딩 공간 내에서 기능적으로 유사한 시스템 호출(예: read/write, open/close, select/poll)을 효과적으로 군집화하여 의미 이해가 이루어졌음을 확인한다.
  • 모델은 낮은 학습 오버헤드와 작은 파라미터 저장 용량 덕분에 높은 이식 가능성을 보이며, 압축된 순차적 아키텍처 덕분이다.
  • 강건한 앙상블 방법은 다수의 분류기를 통합함으로써 가짜 경고 비율을 크게 감소시키며, 개별 임계값 기반 방법보다 뛰어난 성능을 보인다.
  • 공개 벤치마크 데이터셋에서, 이는 다양한 워크로드에서 높은 정확도와 강건성을 보이며 최신 기술 수준의 탐지 성능을 달성한다.
  • 모델은 시스템 호출 시퀀스 내의 장거리 의존성을 효과적으로 포착하여, 기존의 빈도 기반 방법이 놓치는 복잡한 이상 패턴을 탐지할 수 있다.
  • 프레임워크는 순차적 행렬 연산에 의존하므로 계산적으로 효율적이며, 실시간 배포에 적합하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.