QUICK REVIEW

[논문 리뷰] Anomaly Detection in Log Data using Graph Databases and Machine Learning to Defend Advanced Persistent Threats

Timo Schindler|arXiv (Cornell University)|2017. 01. 01.

Network Security and Intrusion Detection인용 수 12

한 줄 요약

이 논문은 공격 킬체인을 모델링하고 로그 이벤트 시퀀스를 분석함으로써 고도로 발전한 지속적 위협(APTs)을 탐지하기 위한 그래프 데이터베이스 및 머신러닝 프레임워크를 제안한다. 시간 시리즈 로그 처리와 지지 벡터 기반의 강화된 방향성 그래프 모델을 결합함으로써, 이 시스템은 빠르고 정확한 이상 탐지 성능을 달성한다. 시뮬레이션된 APT를 효과적으로 탐지함으로써 탐지 시간을 단축시키고, 공격자 경로와 손상된 시스템을 추적할 수 있음을 입증한다.

ABSTRACT

Advanced Persistent Threats (APTs) are a main impendence in cyber security of computer networks. In 2015, a successful breach remains undetected 146 days on average, reported by [Fi16].With our work we demonstrate a feasible and fast way to analyse real world log data to detect breaches or breach attempts. By adapting well-known kill chain mechanisms and a combine of a time series database and an abstracted graph approach, it is possible to create flexible attack profiles. Using this approach, it can be demonstrated that the graph analysis successfully detects simulated attacks by analysing the log data of a simulated computer network. Considering another source for log data, the framework is capable to deliver sufficient performance for analysing real-world data in short time. By using the computing power of the graph database it is possible to identify the attacker and furthermore it is feasible to detect other affected system components. We believe to significantly reduce the detection time of breaches with this approach and react fast to new attack vectors.

연구 동기 및 목표

2015년 기준 Fireeye 보고서에 따르면 평균 146일간 탐지되지 않는 APT 공격으로 인한 심각한 문제를 해결하기 위해.
실제 로그 데이터에서 APT를 탐지하기 위해 확장 가능하고 효율적이며 개인정보 보호 규정을 준수하는 솔루션을 개발하기 위해.
공격 킬체인을 추상화된 이벤트 시퀀스로 표현한 방향성 그래프로 모델링함으로써 복잡한 다단계 공격을 탐지할 수 있도록 하기 위해.
개인정보 보호 규정 준수(§3a BDSG)를 지원하기 위해, 탐지 정확도를 잃지 않은 채 의사번호화된 데이터 처리 기능을 제공하기 위해.
시뮬레이션 및 실제 데이터 처리를 통해 다양한 로그 소스와 공격 벡터에 대한 프레임워크의 적응 가능성을 입증하기 위해.

제안 방법

프레임워크는 APT의 단계(예: 정찰, 공격 전달, 침투, 유출 등)를 표현하기 위해 수정된 킬체인 모델을 방향성 그래프로 사용한다.
원시 로그 이벤트는 시간 순서대로 시간 시리즈 데이터베이스에 저장되고, 그래프 데이터베이스의 중간 계층의 추상화된 이벤트 시퀀스로 매핑된다.
추상화 계층을 통해 관련 로그 이벤트를 고위계층의 시퀀스로 묶음으로써, 다양한 공격 패tern과 순환 공격 패턴을 영리하게 탐지할 수 있다.
정상 및 악성 로그 데이터에 레이블을 붙인 데이터를 기반으로 지지 벡터 기반의 분류 모델(SVMs)을 훈련시켜 공격 패tern을 식별하고 이상을 탐지한다.
다양한 소스에서 온 이질적인 로그 데이터를 정규화하고 풍부하게 처리하여 일관성과 탐지 정확도를 향상시킨다.
기존 SIEM 시스템과 통합되며, 공격 지표의 효율적 탐색과 관련성 분석을 위해 그래프 데이터베이스 쿼리 기능을 활용한다.

실험 결과

연구 질문

RQ1로그 이벤트 시퀀스를 사용하여 그래프 기반 모델이 다단계 APT 공격 패턴을 효과적으로 표현하고 탐지할 수 있는가?
RQ2시간 시리즈 로그 처리와 그래프 데이터베이스 기술을 결합할 경우 APT 탐지의 속도와 정확도가 어떻게 향상되는가?
RQ3특히 시뮬레이션 및 실제 공격 시나리오에 기반한 학습을 통해 머신러닝 모델, 특히 SVMs가 로그 데이터에서 이상을 탐지하는 데 얼마나 효과적인가?
RQ4개인정보 보호 규정 준수를 위해 의사번호화된 로그 데이터를 처리할 때 프레임워크가 높은 탐지 정밀도를 유지할 수 있는가?
RQ5시스템은 초기 침입 외에도 보조적으로 손상된 시스템과 공격자 경로를 얼마나 잘 식별할 수 있는가?

주요 결과

프레임워크는 그래프 기반의 킬체인 모델을 통해 로그 이벤트를 상호 관련지어 시뮬레이션된 APT 공격을 성공적으로 탐지하였으며, 통제된 환경에서 높은 탐지 정확도를 입증하였다.
그래프 데이터베이스 쿼리를 활용해 공격자 행동을 효율적으로 추적하고 손상된 시스템을 식별함으로써 빠른 사고 대응이 가능했다.
기존의 시그니처 기반 방법에 비해 APT 탐지 시간을 단축시킨 결과, 공격 단계 식별 속도가 빨라졌다.
최적화된 그래프 쿼리 실행 덕분에 대량의 실시간 로그 데이터를 짧은 시간 내에 처리할 수 있는 충분한 성능을 확보하였다.
이벤트 시퀀스 추상화와 SVM의 통합으로 이상 탐지 정밀도가 향상되었으며, 특히 미리 알려지지 않은 공격 유형에 대해서도 뛰어난 성능을 보였다.
의사번호화된 데이터를 처리할 때도 탐지 정확도를 유지함으로써 독일 개인정보 보호법(§3a BDSG) 준수를 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.