QUICK REVIEW

[논문 리뷰] Sequence Aggregation Rules for Anomaly Detection in Computer Network Traffic

Benjamin J. Radford, Bartley D. Richardson|arXiv (Cornell University)|2018. 05. 09.

Network Security and Intrusion Detection참고 문헌 7인용 수 49

한 줄 요약

이 연구는 CICIDS2017 네트워크 흐름 데이터에서 LSTM RNN과 주파수 기반 기본 모델을 활용한 다섯 가지 시퀀스 집계 규칙을 평가하고, 단순 주파수 모델이 대부분의 공격에 대해 LSTM 모델과 맞먹거나 이를 능가하는 경우가 많다는 것을 발견했다.

ABSTRACT

We evaluate methods for applying unsupervised anomaly detection to cybersecurity applications on computer network traffic data, or flow. We borrow from the natural language processing literature and conceptualize flow as a sort of "language" spoken between machines. Five sequence aggregation rules are evaluated for their efficacy in flagging multiple attack types in a labeled flow dataset, CICIDS2017. For sequence modeling, we rely on long short-term memory (LSTM) recurrent neural networks (RNN). Additionally, a simple frequency-based model is described and its performance with respect to attack detection is compared to the LSTM models. We conclude that the frequency-based model tends to perform as well as or better than the LSTM models for the tasks at hand, with a few notable exceptions.

연구 동기 및 목표

네트워크 흐름 데이터에서 사이버 보안을 위한 비지도 이상 탐지를 촉진한다.
네트워크 트래픽을 하나의 언어로 모델링하고 다섯 가지 시퀀스 집계 규칙을 평가한다.
LSTM 기반 시퀀스 모델과 간단한 주파수 기반 기준선을 비교한다.
CICIDS2017에서 두 가지 특성 세트(프로토바이트 시퀀스와 서비스 포트 시퀀스)를 평가한다.
이상 탐지를 위한 집계 전략 및 실무 시사점에 대한 지침을 제공한다.

제안 방법

흐름 데이터를 두 가지 특성 세트를 사용해 토큰 시퀀스로 표현한다: 프로토바이트 토큰과 서비스 포트 토큰.
다섯 가지 집계 규칙(source, destination, dyad, internal, external)을 정의하고 각 단위에 따라 그룹화된 시간별 시퀀스를 생성한다.
다층 양방향 LSTM 아키텍처와 임베딩 및 다중 클래스 예측을 위한 Dense 출력 층으로 시퀀스를 모델링한다.
동일 시퀀스의 앞선 토큰을 고려하여 올바른 토큰의 예측 확률에 기반해 토큰 수준에서 이상치를 점수화한다.
LSTM 기반 점수를 주파수 기반 기준선과 비교하고 샘플 밖 토큰에서 AUC로 평가한다.
부트스트랩 재샘플링으로 다수의 모델을 학습시키고 실행 간 평균 AUC를 보고한다.

실험 결과

연구 질문

RQ1감지되지 않은 공격 라벨 없이 네트워크 흐름 데이터에서 비지도 시퀀스 모델링으로 공격을 탐지할 수 있는가?
RQ2다른 집계 규칙이 특성 세트 간 이상 탐지 성능에 어떤 영향을 미치는가?
RQ3CICIDS2017 흐름 데이터에 대해 간단한 주파수 기반 모델이 LSTM 모델만큼 잘 수행하는가 혹은 더 나은가?
RQ4프로토바이트와 포트 기반 시퀀스 표현에서 어떤 공격 유형이 가장 잘 탐지되고 가장 덜 탐지되는가?
RQ5실세계 배치에서 모델 선택과 특성 설계에 대한 실용적 시사점은 무엇인가?

주요 결과

모든 집계 규칙과 특성 세트에 걸쳐 주파수 기반 모델이 종종 최상의 LSTM 모델의 성능과 일치하거나 이를 능가한다.
프로토바이트 시퀀스를 사용할 때 SQL Injection 및 Infiltration 탐지에서 LSTMs가 성능을 높인다.
포트 시퀀스는 다수의 공격에서 강력한 탐지를 가능하게 하며 주파수 모델 사용 시 Heartbleed 및 Port Scan에서 높은 AUC를 보인다.
Heartbleed는 모든 모델에서 높은 AUC(0.95–1.0)로 일관되게 탐지된다.
대부분의 공격에서 포트 시퀀스 분석이 프로토바이트 시퀀스보다 평균 AUC를 더 높게 나타낸다.
LSTM이 달성한 최고 평균 AUC는 0.71(외부 IP 집계), 반면 포트-주파수 모델은 평균 AUC가 약 0.87에 도달한다.
저자들은 모델과 특성 세트 간의 강점을 활용하기 위한 앙상블 이상 탐지의 필요성을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.