QUICK REVIEW

[논문 리뷰] Deep Learning for Unsupervised Insider Threat Detection in Structured Cybersecurity Data Streams

Aaron Tuor, Samuel Kaplan|arXiv (Cornell University)|2017. 10. 02.

Network Security and Intrusion Detection인용 수 184

한 줄 요약

온라인 비지도 학습 딥 러닝이 스트리밍 시스템 로그에서 이상 사용자 활동을 감지합니다; 사용자별 DNN/LSTM 모델과 해석 가능한 이상 기여도를 통해 PCA, SVM, Isolation Forest 베이스라인보다 CERT v6.2 데이터에서 우수한 성능을 보입니다.

ABSTRACT

Analysis of an organization's computer network activity is a key component of early detection and mitigation of insider threat, a growing concern for many organizations. Raw system logs are a prototypical example of streaming data that can quickly scale beyond the cognitive power of a human analyst. As a prospective filter for the human analyst, we present an online unsupervised deep learning approach to detect anomalous network activity from system logs in real time. Our models decompose anomaly scores into the contributions of individual user behavior features for increased interpretability to aid analysts reviewing potential cases of insider threat. Using the CERT Insider Threat Dataset v6.2 and threat detection recall as our performance metric, our novel deep and recurrent neural network models outperform Principal Component Analysis, Support Vector Machine and Isolation Forest based anomaly detection baselines. For our best model, the events labeled as insider threat activity in our dataset had an average anomaly score in the 95.53 percentile, demonstrating our approach's potential to greatly reduce analyst workloads.

연구 동기 및 목표

고속으로 생성되는 이질적인 시스템 로그에서 초기 내부자 위협 탐지 동기를 제시.
온라인 비지도 학습 시스템을 개발하여 정상 사용자 행동을 모델링하고 이상을 표시.
지표 점수를 기여 특징으로 분해하여 해석 가능한 이상 설명을 제공.
CERT Insider Threat Dataset v6.2에서 일반 baselines에 대해 온라인 DNN 및 LSTM 아키텍처를 평가.

제안 방법

시스템 로그를 매일, 사용자별 414차원 특징 벡터(408 카운트 + 6 범주 속성)로 표현.
두 개의 신경망 아키텍처를 구현: 파라미터를 공유하지만 온라인 학습을 위해 사용자별 상태를 갖는 Deep Neural Network(DNN)와 Recurrent Neural Network(LSTM).
다음 일일 특징 벡터를 예측하거나 현재 벡터를 재구성하고, 이상을 음의 로그가능도(NLL)로 계산하는 확률 모델을 사용.
연속적 카운트와 여섯 개의 범주형 변수에 대한 공동 분포를 인수분해 근사와 범주형에 대한 소프트맥스 출력을 사용.
이상 점수를 개별 특징의 기여도로 분해하여 분석가의 해석을 돕습니다.
새로운 사용자-이벤트 벡터마다 가중치를 업데이트하여 온라인 학습을 진행하고, 전역 파라미터를 공유하면서 사용자별 은닉/셀 상태를 유지합니다.

실험 결과

연구 질문

RQ1온라인 DNN 및 LSTM 모델이 스트리밍되고 구조화된 사이버 보안 데이터에서 전통적인 기준선보다 더 효과적으로 내부자 위협을 탐지할 수 있는가?
RQ2온라인 학습으로 사용자별 행동을 모델링하는 것이 실시간 이상 탐지 및 해석 가능성을 개선하는가?
RQ3카테고리 특성을 포함하는 것이 카운트 특성만 사용할 때보다 탐지 성능에 어떤 영향을 주는가?
RQ4같은 시점의 예측 대상과 다음 시점의 예측 대상 중 어떤 것이 이상 탐지에 더 효과적이었는가?
RQ5연속 특성에 대한 대각 공동분산 모형이 항등 대각분산보다 성능을 개선하는가?

주요 결과

모델	CR-400	CR-1000
LSTM-Diag	11.6	35.6
LSTM-Diag-Cat	9.2	32.3

DNN-Diag 및 LSTM-Diag가 누적 재현율 지표(CR-400 및 CR-1000)에서 PCA, SVM, Isolation Forest 베이스라인을 크게 능가합니다.
범주형 특징을 포함하면 일부 설정에서 약간의 성능 향상이 나타나지만 일반적으로 카운트 특성만 사용할 때는 그렇지 않으며, 카운트만 모델이 많은 실험에서 최상의 성능을 보였습니다.
동일 시점에서의 예측(현재 입력 재구성)이 다음 시점 예측보다 DNN 및 LSTM 변형에서 더 나은 성능을 보였습니다.
연속 특성에 대한 대각 분산은 아이덴티티 분산보다 성능을 향상시키며, 특히 온라인 맥락에서 그렇습니다.
개발/테스트 분할에서 일부 모델은 일일 예산 425에서 100% 재현율을 달성했고, 더 작은 예산에서도 재현율이 두드러졌습니다(예: 90% 재현율에 대해 250).
주요 표의 최상의 결과는 LSTM-Diag에서 CR-400=11.6, CR-1000=35.6이며 LSTM-Diag-Cat에서 CR-400=9.2, CR-1000=32.3입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.