QUICK REVIEW

[논문 리뷰] Entity Embedding-based Anomaly Detection for Heterogeneous Categorical Events

Ting Chen, Lu‐An Tang|arXiv (Cornell University)|2016. 08. 26.

Anomaly Detection Techniques and Applications참고 문헌 18인용 수 66

한 줄 요약

이 논문은 이질적인 범주형 엔티티를 공유 잠재 공간에 통합하여 사건 발생 확률을 모델링하는 통합된 확률 모델인 APE(Anomaly Detection via Probabilistic Pairwise Interaction and Entity Embedding)를 제안한다. 엔티티 임베딩 간의 가중 쌍별 상호작용과 맥락에 따라 달라지는 노이즈를 갖는 노이즈 대비 추정(Noise-Contrastive Estimation)을 활용함으로써 APE는 큰 사건 공간에서 효율적으로 학습할 수 있으며, 실제 기업 보안 감시 데이터에서 이상 탐지 성능이 최신 기술들을 능가한다.

ABSTRACT

Anomaly detection plays an important role in modern data-driven security applications, such as detecting suspicious access to a socket from a process. In many cases, such events can be described as a collection of categorical values that are considered as entities of different types, which we call heterogeneous categorical events. Due to the lack of intrinsic distance measures among entities, and the exponentially large event space, most existing work relies heavily on heuristics to calculate abnormal scores for events. Different from previous work, we propose a principled and unified probabilistic model APE (Anomaly detection via Probabilistic pairwise interaction and Entity embedding) that directly models the likelihood of events. In this model, we embed entities into a common latent space using their observed co-occurrence in different events. More specifically, we first model the compatibility of each pair of entities according to their embeddings. Then we utilize the weighted pairwise interactions of different entity types to define the event probability. Using Noise-Contrastive Estimation with "context-dependent" noise distribution, our model can be learned efficiently regardless of the large event space. Experimental results on real enterprise surveillance data show that our methods can accurately detect abnormal events compared to other state-of-the-art abnormal detection techniques.

연구 동기 및 목표

기존 방법들이 내재된 거리 측정 기준이 없고 사건 공간이 지수적으로 커지기 때문에 히우리스틱 기반의 접근 방식을 쓰는 이질적인 범주형 사건 데이터에서의 비지도 이상 탐지 문제를 해결하기 위해.
히우리스틱 이상 점수에 의존하지 않고 사건 발생 확률을 직접 모델링하는 통합적이고 원리적인 확률 프레임워크를 개발하기 위해.
다양한 종류의 범주형 엔티티 간의 의미적 유사성과 호환성을 반영하는 의미 있는 엔티티 표현을 학습하기 위해.
가능한 사건 조합의 조합 폭발 문제로 인해 대규모 사건 데이터에서의 학습을 효율적으로 가능하게 하기 위해.
실제 보안 응용 분야에서 알려지지 않은 또는 이전에 보이지 않은 이상 사건을 더 정확하게 탐지하기 위해.

제안 방법

이벤트 간 엔티티의 동시 발생 패턴을 모델링하여 엔티티 임베딩을 학습함으로써, 이질적인 범주형 엔티티를 공유된 저차원 잠재 공간에 투영한다.
학습된 임베딩 벡터 간의 내적을 사용하여 엔티티 간의 쌍별 호환성을 정량화함으로써 상호작용 강도를 측정한다.
다양한 엔티티 유형 간의 쌍별 상호작용에 대한 가중 합으로서 사건 확률를 정의함으로써, 복잡한 사건 구조를 민첩하게 모델링할 수 있다.
모든 사건 공간에 대한 완전한 계산을 피하기 위해 맥락에 따라 달라지는 노이즈 분포를 사용하는 노이즈 대비 추정(NCE)을 활용하여 모델을 효율적으로 학습한다.
관측된 정상 사건의 가능도를 최대화하도록 엔드 투 엔드로 학습되며, 이상 점수는 예측된 사건 확률의 역수로부터 유도된다.
t-SNE를 사용하여 학습된 임베딩을 시각화함으로써, 의미적으로 유사한 엔티티가 잠재 공간에서 서로 뭉쳐져 있음을 검증한다.

실험 결과

연구 질문

RQ1히우리스틱 이상 점수에 의존하지 않고도 이질적인 범주형 사건 데이터에서 통합된 확률 모델이 사건 발생 확률을 효과적으로 학습할 수 있는가?
RQ2엔티티 임베딩이 사건 데이터 내에서 서로 다른 종류의 범주형 엔티티 간의 의미적 관계와 호환성을 충분히 포착할 수 있는가?
RQ3맥락에 따라 달라지는 노이즈를 사용하는 노이즈 대비 추정(NCE)이 지수적으로 큰 사건 공간을 가진 대규모 사건 데이터에서 효율적인 학습을 가능하게 하는가?
RQ4제안된 APE 모델이 기존 최신 기술보다 알려지지 않은 이상 사건을 더 정확하게 탐지할 수 있는가?
RQ5학습된 엔티티 임베딩이 이상 탐지에 도움이 되는 해석 가능한 패턴(예: 업무 시간과의 구분, 루트 사용자 행동 등)을 드러낼 수 있는가?

주요 결과

APE 모델은 실제 기업 보안 감시 데이터에서 최신 기술 대비 뛰어난 이상 탐지 성능을 보이며, 비정상 사건을 더 정확하게 식별함을 입증했다.
t-SNE 시각화 결과, 학습된 엔티티 임베딩이 의미 있는 의미론적 정보를 포착하고 있음을 확인: 유사한 사용자 유형이 서로 뭉쳐져 있고, 루트 사용자가 다른 이들과 명확히 분리되어 있음.
모델은 시간 패턴을 성공적으로 학습하였으며, 사전 지식 없이도 시간 임베딩 공간에서 업무 시간과 비업무 시간이 뚜렷하게 분리되어 있음을 확인함.
APE의 성능은 음성 샘플 수에 대해 강건하며, 음성 샘플 수가 증가함에 따라 약간의 향상이 관찰되어 안정적인 학습을 보임.
NCE에서 맥락에 따라 달라지는 노이즈를 사용함으로써 전체 사건 공간을 완전히 나열하지 않고도 효율적인 학습이 가능해져, 확장성이 확보됨.
가중 쌍별 상호작용 메커니즘은 모든 가능한 상호작용을 고려하는 모델 대비 과적합을 줄이고 해석 가능성을 향상시킴.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.