Skip to main content
QUICK REVIEW

[논문 리뷰] Detecting Anomalous User Behavior Using an Extended Isolation Forest Algorithm: An Enterprise Case Study

Li Sun, Steven Versteeg|arXiv (Cornell University)|2016. 09. 21.
Network Security and Intrusion Detection참고 문헌 7인용 수 38
한 줄 요약

이 논문은 학습 데이터에 레이블링된 이상 징후가 없이도 기업 환경에서 비정상적인 사용자 행동을 탐지하기 위해 확장된 이sovlation Forest 알고리즘을 제안한다. 고유한 특성과 다수의 행동 특징을 통합하여, 특히 시간 기반 액세스 패턴을 포함함으로써 비정상적인 사용자 행동을 식별할 때 높은 재현율(최대 99.91%)을 달성한다.

ABSTRACT

Anomalous user behavior detection is the core component of many information security systems, such as intrusion detection, insider threat detection and authentication systems. Anomalous behavior will raise an alarm to the system administrator and can be further combined with other information to determine whether it constitutes an unauthorised or malicious use of a resource. This paper presents an anomalous user behaviour detection framework that applies an extended version of Isolation Forest algorithm. Our method is fast and scalable and does not require example anomalies in the training data set. We apply our method to an enterprise dataset. The experimental results show that the system is able to isolate anomalous instances from the baseline user model using a single feature or combined features.

연구 동기 및 목표

  • 학습 중에 레이블링된 이상 예외 사례가 필요 없는 사용자 행동에 대한 비지도 이상 탐지 시스템을 개발하는 것.
  • 사용자 액세스 로그에서 흔히 발견되는 범주형 데이터 특징을 지원하도록 이sovlation Forest 알고리즘을 확장하는 것.
  • 실제 기업 로그 데이터에서 단일 및 병합된 특징의 이상 탐지 효과를 평가하는 것.
  • 대규모 기업 환경에서 개별 사용자의 정상 및 비정상 행동 패턴을 구분할 수 있는 시스템의 능력을 평가하는 것.

제안 방법

  • 기업 로그 파일을 파싱하고, 매치 규칙, 서명, 장치, 브라우저, 액세스 시간과 같은 사용자 기반 행동 특징을 추출한다.
  • 범주형 특징을 수치 표현으로 인코딩하여 지원하는 확장된 이sovlation Forest 알고리즘을 사용해 기준 사용자 모델을 구축한다.
  • 학습 세트(사용자 로그의 80%)에 대해 이sovlation Forest를 훈련시어 정상 행동을 모델링하는 이sovlation 트리를 구축한다.
  • 새로운 사용자 기록을 훈련된 이sovlation 트리에 매핑하고, 리프 노드에 도달하는 평균 경로 길이를 기반으로 이상도 점수를 계산한다.
  • 이상도 점수가 임계값(0.80로 설정)을 초과하는 기록을 잠재적인 이상으로 표시한다.
  • 시스템 성능 평가를 위해 10겹 교차검증을 10번의 랜덤 실행으로 수행하며, 참양성, 거짓양성, 정밀도, 재현율, 정확도를 측정한다.

실험 결과

연구 질문

  • RQ1학습 세트에 레이블링된 이상 징후가 없이도 확장된 이sovlation Forest 알고리즘이 기업 로그 데이터에서 비정상적인 사용자 행동을 효과적으로 탐지할 수 있는가?
  • RQ2범주형 특징(예: 장치, 브라우저, 매치 규칙)의 포함이 이상 탐지 시스템의 성능에 어떤 영향을 미치는가?
  • RQ3다양한 행동 특징을 병합하면 단일 특징을 사용할 때보다 정상 및 비정상 사용자 행동 패턴을 더 잘 구분할 수 있는가?
  • RQ4개별 사용자에 특화된 이상 행동과 다른 사용자 행동과 유사한 이상 행동을 탐지하는 데 시스템의 효과는 어떠한가?
  • RQ5액세스 시간은 비정상적인 사용자 행동 패턴을 식별하는 데 어떤 역할을 하는가?

주요 결과

  • 단일 특징(장치 확인)을 사용할 경우 시스템의 재현율이 99.91%에 도달하여 실제 비정상 행동을 강력하게 탐지함을 보여주었다.
  • 네 가지 특징을 병합한 시스템은 재현율 99.02%와 정밀도 51.43%를 기록하여 다양한 행동 패턴에서 효과적인 탐지 능력을 입증하였다.
  • 액세스 시간을 특징으로 포함함으로써 탐지 성능이 향상되었으며, 시간과 네 가지 다른 특징을 사용한 시스템은 재현율 98.92%를 기록하였다.
  • 모든 시스템에서 거짓양성 비율이 높았으며(94.03%에서 99.75% 범위), 특히 분산이 낮은 특징에서는 정상 행동가도 잘못 탐지된 경우가 많았다.
  • 거짓양성의 히스토GRAM을 분석한 결과, 495명의 사용자 중 258명은 거짓양성이 없었고, 122명은 오직 한 건의 거짓양성만 기록하여 대부분의 사용자가 안정적인 행동 패턴을 보였음을 시사했다.
  • 사용자 ID 58376의 예시에서는 이상도 점수가 높은 기록(0.9307)이 두 건이 있었으며, 특징 변화를 바탕으로 이상으로 확인되어 시스템이 미세한 행동 이질성을 탐지할 수 있음을 검증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.