QUICK REVIEW

[논문 리뷰] DeepDGA: Adversarially-Tuned Domain Generation and Detection

Hyrum S. Anderson, Jonathan Woodbridge|arXiv (Cornell University)|2016. 10. 06.

Advanced Malware Detection Techniques인용 수 45

한 줄 요약

이 논문은 딥러닝 기반 DGA 탐지기에서 탐지를 피하기 위해 적대적으로 도메인 이름을 튜닝하는 GAN 기반 DGA인 DeepDGA를 제안한다. 반복적으로 생성기와 탐지기를 훈련시어, 도메인을 생성하고 이를 구분하도록 하는 프레임워크를 통해, 다른 모델으로도 일반화 가능한 적대적 예제를 생성한다. 이로 인해, 이러한 예제를 훈련 데이터에 추가함으로써, 미리 보지 못한 DGA 가족의 탐지 성능이 크게 향상됨을 입증한다. 이는 수작업 특징을 사용한 랜덤 포레스트 분류기에서도 성립한다.

ABSTRACT

Many malware families utilize domain generation algorithms (DGAs) to establish command and control (C&C) connections. While there are many methods to pseudorandomly generate domains, we focus in this paper on detecting (and generating) domains on a per-domain basis which provides a simple and flexible means to detect known DGA families. Recent machine learning approaches to DGA detection have been successful on fairly simplistic DGAs, many of which produce names of fixed length. However, models trained on limited datasets are somewhat blind to new DGA variants. In this paper, we leverage the concept of generative adversarial networks to construct a deep learning based DGA that is designed to intentionally bypass a deep learning based detector. In a series of adversarial rounds, the generator learns to generate domain names that are increasingly more difficult to detect. In turn, a detector model updates its parameters to compensate for the adversarially generated domains. We test the hypothesis of whether adversarially generated domains may be used to augment training sets in order to harden other machine learning models against yet-to-be-observed DGAs. We detail solutions to several challenges in training this character-based generative adversarial network (GAN). In particular, our deep learning architecture begins as a domain name auto-encoder (encoder + decoder) trained on domains in the Alexa one million. Then the encoder and decoder are reassembled competitively in a generative adversarial network (detector + generator), with novel neural architectures and training strategies to improve convergence.

연구 동기 및 목표

딥러닝 기반 DGA를 개발하여, 적대적 훈련을 통해 딥러닝 분류기의 탐지를 명시적으로 회피하도록 한다.
적대적으로 생성된 도메인 이름이 기존에 보지 못한 DGA 가족에 대해 효과적인 데이터 증강 수단이 될 수 있는지 조사한다.
문자 수준의 GAN을 사용한 도메인 이름 생성에서 발생하는 훈련 과제, 예를 들어 모드 붕괴와 수렴 불량 문제를 해결한다.
다양한 모델 아키텍처(예: 수작업 특징을 사용한 랜덤 포레스트) 간에 적대적 예제의 일반화 능력을 평가한다.
GAN에서 생성한 적대적 예제가 분포 외 DGA 가족에 대한 탐지 성능 향상에 기여함을 입증한다.

제안 방법

Alexa의 상위 100만 개 도메인을 기반으로 캐릭터 수준의 딥러닝 모델을 오토인코더로 사전 훈련하여 도메인 이름 표현을 학습한다.
에코더와 디코더를 재사용하여 GAN으로 전환: 생성기는 도메인 이름을 생성하고, 구분기는 DGA 탐지기로 기능한다.
훈련 안정성과 수렴을 향상시키기 위해 역사 정규화, 박스 레이어, 주축 박스 레이어 등의 새로운 훈련 전략을 도입한다.
생성기는 구분기를 속이기 위해 도메인을 생성하도록 훈련되고, 반대로 구분기는 적대적 라운드에서 진짜 도메인과 적대적 도메인을 더 잘 구분하도록 업데이트된다.
GAN에서 생성한 적대적 예제를 사용하여 별도의 랜덤 포레스트 분류기의 훈련 데이터셋을 증강하여 그 강건성을 향상시킨다.
미리 보지 못한 DGA 가족에 대한 일반화 능력을 평가하기 위해 '한 가족 제외 교차검증' 전략을 사용한다.

실험 결과

연구 질문

RQ1GAN을 사용하여 딥러닝 DGA 탐지기의 탐지를 피할 수 있는 도메인 이름을 생성할 수 있는가?
RQ2한 모델 아키텍처(예: 딥 네트워크)용으로 생성된 적대적 예제가 다른 모델 아키텍처(예: 수작업 특징을 사용한 랜덤 포레스트)에서도 탐지를 피할 수 있는가?
RQ3GAN에서 생성한 적대적 예제를 사용하여 훈련 데이터를 증강하고, 이전에 보지 못한 DGA 가족의 탐지 성능을 향상시킬 수 있는가?
RQ4문자 수준의 GAN을 사용한 도메인 이름 생성을 안정적으로 훈련하기 위해 필요한 새로운 훈련 기법은 무엇인가?
RQ5적대적 데이터 증강이 분포 외 DGA 가족에 대해 고정된 위임률(FPR)에서 진정 양성률(TPR)을 얼마나 향상시키는가?

주요 결과

DeepDGA 생성기는 자체 구분기를 회피할 수 있는 도메인을 성공적으로 생성하여, 20% 테스트 세트에서 탐지율이 단 48%에 그쳤다.
GAN에서 생성한 적대적 도메인은 수작업 특징을 사용한 랜덤 포레스트 분류기의 탐지를도 회피하여, 다양한 모델 유형 간 일반화 능력이 있음을 시사한다.
10,000개의 적대적 DeepDGA 샘플을 사용해 훈련 세트를 증강한 후, 랜덤 포레스트 분류기의 평균 진정 양성률(TPR)이 1% FPR에서 68%에서 70%로 향상되었다.
강화된 모델은 이전에 성능이 좋지 않았던 가족들, 예를 들어 pykspa(67%에서 71% TPR로 향상)와 ramdo(54%에서 54% TPR 유지)에서 특히 향상되었으며, 대부분의 가족에서 성능 향상 또는 안정된 성능 유지를 보였다.
이 방법은 GAN에서 생성한 적대적 예제가 분포 외 DGA 변종에 대해 모델을 효과적으로 강화시킬 수 있음을 입증했으며, 분포 현실성에서 전통적인 편향 기반 적대적 훈련보다 우수한 성능을 보였다.
오토인코더 사전 훈련과 새로운 레이어(박스 레이어, 주축 박스 레이어)의 사용은 GAN 훈련의 안정성과 수렴을 크게 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.