[논문 리뷰] MAGIC: Detecting Advanced Persistent Threats via Masked Graph Representation Learning
MAGIC는 출처 그래프에서 APT를 탐지하기 위한 자기 지도(self-supervised) 마스킹 그래프 표현 학습 접근법을 제안하여, 낮은 오버헤드로 다중 정밀도 탐지 및 개념 드리프트에 대한 강인성을 가능하게 한다.
Advance Persistent Threats (APTs), adopted by most delicate attackers, are becoming increasing common and pose great threat to various enterprises and institutions. Data provenance analysis on provenance graphs has emerged as a common approach in APT detection. However, previous works have exhibited several shortcomings: (1) requiring attack-containing data and a priori knowledge of APTs, (2) failing in extracting the rich contextual information buried within provenance graphs and (3) becoming impracticable due to their prohibitive computation overhead and memory consumption. In this paper, we introduce MAGIC, a novel and flexible self-supervised APT detection approach capable of performing multi-granularity detection under different level of supervision. MAGIC leverages masked graph representation learning to model benign system entities and behaviors, performing efficient deep feature extraction and structure abstraction on provenance graphs. By ferreting out anomalous system behaviors via outlier detection methods, MAGIC is able to perform both system entity level and batched log level APT detection. MAGIC is specially designed to handle concept drift with a model adaption mechanism and successfully applies to universal conditions and detection scenarios. We evaluate MAGIC on three widely-used datasets, including both real-world and simulated attacks. Evaluation results indicate that MAGIC achieves promising detection results in all scenarios and shows enormous advantage over state-of-the-art APT detection approaches in performance overhead.
연구 동기 및 목표
- 공격 데이터를 포함하지 않는 데이터와 사전 APT 지식의 부족이라는 문제를 해결하기 위해 자기 지도 탐지 방법을 제안한다.
- 출처 그래프에서 풍부한 맥락 정보를 모델링하여 탐지 정확도를 향상시키고 거짓 긍정을 줄인다.
- 스케일 가능한 계산으로 다중 정밀도 APT 탐지(배치 로그 수준 및 시스템 엔티티 수준)를 가능하게 한다.
- 개념 드리프트를 처리하고 분석가 피드백을 반영하기 위한 선택적 모델 적응 메커니즘을 제공한다.
- 낮은 오버헤드로 실제 데이터 및 시뮬레이션 데이터셋에서 실용성과 효과를 시연한다.
제안 방법
- 감사 로그로부터 노이즈 제거 및 레이블 기반 초기 임베딩을 통해 출처 그래프를 구성한다.
- 마스킹된 특징 재구성과 샘플 기반 구조 재구성을 통해 정상 동작 임베딩을 학습하기 위해 그래프 마스크드 오토인코더(인코더-디코더)를 사용한다.
- 그래프 표현 모듈을 자가 지도 방식으로 학습하기 위해 2단계 학습 목표 L = L_fr + L_sr 을 적용한다.
- 노드(시스템 엔티티)를 표현하고 집계하여 배치 로그 수준 탐지를 위한 노드 임베딩과 시스템 상태 임베딩을 얻는다.
- k-트리(k-d 트리)를 사용하여 임베딩에서 이상치 탐지를 수행하고 배치 또는 엔티티 수준 작업에서 정상 패턴과 이상 패턴을 구분한다.
- 개념 드리프트를 다루기 위해 분석가 피드백과 메모리 할인(memory discounting)을 도입하는 선택적 모델 적응 메커니즘을 통합한다.
실험 결과
연구 질문
- RQ1공격 데이터를 포함하지 않는 상황에서 자기 지도 마스킹 그래프 표현 학습이 정상적인 프로베런스 그래프를 효과적으로 모델링하여 APT 탐지에 사용될 수 있는가?
- RQ2감지 정확도와 계산 효율성 사이의 최적 트레이드오프를 제공하는 다중 정밀도 수준은 무엇인가(배치 로그 수준 대 시스템 엔티티 수준)?
- RQ3현실 및 시뮬레이션된 APT 데이터셋에서 최첨단 방법과 비교했을 때 MAGIC의 탐지 정밀도/재현율 및 오버헤드 성능은 어떠한가?
- RQ4모델 적응 메커니즘이 개념 드리프트에 대한 강건성을 향상시키고 시간에 따른 거짓 양성을 줄이는가?
주요 결과
- MAGIC은 평가된 데이터셋에서 엔티티 수준 APT 탐지에 대해 97.26% 정밀도와 99.91% 재현율을 달성한다.
- MAGIC은 최소한의 오버헤드를 달성하며 최첨단 접근법보다 훨씬 빠르다(예: ShadeWatcher보다 51배 빠름).
- MAGIC은 실제 데이터셋(DARPA E3)과 시뮬레이션 데이터셋(StreamSpot, Unicorn Wget)에서 성능을 유지한다.
- 이 접근법은 다중 정밀도 탐지(배치 로그 및 엔티티 수준)와 유연한 감독 수준을 지원한다.
- 선택적 모델 적응 메커니즘은 개념 드리프트를 완화하고 분석가 피드백을 반영하여 강인성을 향상시키는 데 도움이 된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.