[논문 리뷰] Deep Learning for Unsupervised Insider Threat Detection in Structured Cybersecurity Data Streams
이 논문은 실시간으로 내부자 위협을 탐지하기 위해 구조화된 스트리밍 시스템 로그에서 온라인 unsupervised 딥러닝(DNN 및 LSTM)을 적용하며, 이상 점수는 해석 가능성을 위해 기여 특징으로 분해된다. CERT Insider Threat v6.2 데이터셋에서 PCA, SVM, Isolation Forest 기초 모델 대비 재현율이 우수하게 나타난다.
Analysis of an organization's computer network activity is a key component of early detection and mitigation of insider threat, a growing concern for many organizations. Raw system logs are a prototypical example of streaming data that can quickly scale beyond the cognitive power of a human analyst. As a prospective filter for the human analyst, we present an online unsupervised deep learning approach to detect anomalous network activity from system logs in real time. Our models decompose anomaly scores into the contributions of individual user behavior features for increased interpretability to aid analysts reviewing potential cases of insider threat. Using the CERT Insider Threat Dataset v6.2 and threat detection recall as our performance metric, our novel deep and recurrent neural network models outperform Principal Component Analysis, Support Vector Machine and Isolation Forest based anomaly detection baselines. For our best model, the events labeled as insider threat activity in our dataset had an average anomaly score in the 95.53 percentile, demonstrating our approach's potential to greatly reduce analyst workloads.
연구 동기 및 목표
- 고속의 구조화된 스트리밍 로그에서 내부자 위협 탐지를 동기화하고 해결한다.
- 온라인으로 학습하고 실시간으로 작동하는 비감독 딥러닝 모델을 개발한다.
- 점수의 기여 특징 분해를 통해 해석 가능한 이상 설명을 제공한다.
- synthetic CERT Insider Threat v6.2 데이터셋에서 모델을 평가하고 베이스라인과 비교한다.
제안 방법
- 사용자별로 카테고리 특성과 408개의 활동 카운트를 결합한 414차원 특징 벡터를 생성한다.
- 다음 벡터를 예측하는 두 가지 신경망 아키텍처(DNN 및 LSTM)를 도입하고, 사용자 간 공유 매개변수를 사용한다.
- 연속 특징에 대해 대각 공분산 또는 항등행렬을 사용하는 다항식 분해를 통해 다음 관측의 결합 확률을 모형화한다.
- 단일 공유 모델에서 사용자별 숨겨진 상태를 온라인으로 업데이트하여 무한한 히스토리를 저장하지 않고 실시간 이상 점수화를 가능하게 한다.
- 이상 점수를 개별 특징의 기여로 분해하여 인식된 이벤트의 해석을 돕는다.
실험 결과
연구 질문
- RQ1온라인 비감독 DNN/LSTM 모델이 스트리밍 구조화된 사이버보안 데이터에서 내부자 위협을 효과적으로 탐지할 수 있는가?
- RQ2 diagonals가 공분산(identity)보다 이 설정에서 이상 탐지 성능을 향상시키는가?
- RQ3다음 단계 예측 대 같은 단계 예측이 이상 활성화를 식별하는 데 더 효과적인가?
- RQ4CERT v6.2 데이터셋에서 딥러닝 모델과 전통적 기법(PCA, SVM, Isolation Forest)의 비교에서 어떤 차이가 있는가?
- RQ5이상 점수가 분석가의 조사 우선순위를 돕기에 충분히 해석 가능한가?
주요 결과
- DNN-Diag 및 LSTM-Diag가 누적 재현율 지표에서 PCA, SVM, Isolation Forest 기초모델보다 우수하다(표 5의 CR-400/CR-1000 값: LSTM-Diag 11.6/35.6; DNN-Diag 11.7/35.7).
- 대각 공분산은 연속 특징에 대해 일반적으로 항등 공분산보다 성능이 좋다.
- 동시 점수 예측이 이 데이터세트에서 DNN 및 LSTM 모두에서 다음 시간 예측보다 약간 더 우수했다.
- Isolation Forest는 전통적 방법들 사이에서 여전히 강력한 베이스라인이지만 DNN-Diag 및 LSTM-Diag가 주어진 예산에서 더 높은 재현율을 달성한다.
- 일일 분석가 예산이 425일 때 DNN-Diag 또는 LSTM-Diag 모델은 테스트 세트에서 100% 재현율을 달성하며, 약 250으로 90% 재현율을 달성하는 경우가 실험에 자세히 제시되어 있다.
- 악성(내부자 위협) 사용자-일의 이상 점수는 버닝 이후 95 분위수 이상으로 치우치는 경향이 있어 위협 이벤트를 효과적으로 구분함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.