Skip to main content
QUICK REVIEW

[논문 리뷰] Predicting Domain Generation Algorithms with Long Short-Term Memory Networks

Jonathan Woodbridge, Hyrum S. Anderson|arXiv (Cornell University)|2016. 11. 02.
Network Security and Intrusion Detection참고 문헌 11인용 수 208
한 줄 요약

논문은 실시간(도메인당)으로 무특징 LSTM 기반 분류기를 도입하여 DGA 생성 도메인을 탐지하고 도메인을 악성 패밀리로 분류할 수 있으며, 컨텍스트 데이터 없이 최첨단 AUC 및 F1 점수를 달성합니다. 또한 재현 가능한 오픈 소스 코드를 제공합니다.

ABSTRACT

Various families of malware use domain generation algorithms (DGAs) to generate a large number of pseudo-random domain names to connect to a command and control (C&C) server. In order to block DGA C&C traffic, security organizations must first discover the algorithm by reverse engineering malware samples, then generating a list of domains for a given seed. The domains are then either preregistered or published in a DNS blacklist. This process is not only tedious, but can be readily circumvented by malware authors using a large number of seeds in algorithms with multivariate recurrence properties (e.g., banjori) or by using a dynamic list of seeds (e.g., bedep). Another technique to stop malware from using DGAs is to intercept DNS queries on a network and predict whether domains are DGA generated. Such a technique will alert network administrators to the presence of malware on their networks. In addition, if the predictor can also accurately predict the family of DGAs, then network administrators can also be alerted to the type of malware that is on their networks. This paper presents a DGA classifier that leverages long short-term memory (LSTM) networks to predict DGAs and their respective families without the need for a priori feature extraction. Results are significantly better than state-of-the-art techniques, providing 0.9993 area under the receiver operating characteristic curve for binary classification and a micro-averaged F1 score of 0.9906. In other terms, the LSTM technique can provide a 90% detection rate with a 1:10000 false positive (FP) rate---a twenty times FP improvement over comparable methods. Experiments in this paper are run on open datasets and code snippets are provided to reproduce the results.

연구 동기 및 목표

  • 실시간 DGA 탐지가 컨텍스트 데이터나 수동 특징 없이 필요하다는 점의 필요성을 제시합니다.
  • LSTM 네트워크를 사용한 per-domain DGA 분류기를 제안합니다.
  • 다수의 DGA 패밀리에 대한 회고적 및 실시간 베이스라인과의 평가를 수행합니다.
  • 방법이 악성 패밀리별 다중 클래스 분류를 지원하고 재현 가능한 코드를 제공함을 보입니다.

제안 방법

  • 도메인 이름의 문자 수준 패턴을 학습하기 위해 임베딩 층 다음에 LSTM을 사용합니다.
  • LSTM 층 뒤에 드롭아웃을 적용하고 이진 분류를 위한 로지스틱 분류기 또는 다중 클래스 출력용 다항 로지스틱 회귀를 사용합니다.
  • 벤치마크로 Alexa top 1M 도메인을 양성으로, Bambenek OSINT DGA 피드를 DGA로 사용하여 공개 데이터셋에서 학습하고 평가합니다.
  • LSTM과 HMM, 빅그램에 대한 로지스틱 회귀, 수동 특징을 가진 랜덤 포레스트를 비교합니다.
  • 재현을 가능하게 하는 오픈 소스 Python/Keras 구현을 제공합니다.

실험 결과

연구 질문

  • RQ1도메인당 DGA 분류기가 컨텍스트 정보 없이 DGA 도메인을 탐지할 수 있는가?
  • RQ2LSTM 기반 모델이 실시간 DGA 탐지를 위한 특징 기반 및 회고적 방법보다 우수한 성능을 보일 수 있는가?
  • RQ3도메인을 특정 DGA 패밀리로 귀속시키기 위한 다중 클래스 분류가 가능한가?
  • RQ4현실적인 공개 데이터 설정에서 달성 가능한 성능 지표(AUC, F1, 정밀도, 재현율)는 무엇인가?

주요 결과

  • LSTM은 이진 분류에서 AUC 0.9993의 성능을 달성하며 대체 방법들을 능가합니다.
  • LSTM은 마이크로 평균 F1 0.9906을 도달하고 이전 방법들보다 특이 FP 비율이 훨씬 낮습니다(예: 1:10000).
  • 모델은 30개의 DGA 패밀리에 걸쳐 높은 정확도로 다중 클래스 분류를 수행할 수 있습니다.
  • 도메인 분류는 범용 하드웨어에서 약 20 ms 정도 걸립니다.
  • 코드와 실험은 공개 데이터셋과 Keras 구현을 사용하여 재현 가능합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.