QUICK REVIEW

[논문 리뷰] Breaking Bad: Detecting malicious domains using word segmentation

Wei Wang, Kenneth E. Shirley|arXiv (Cornell University)|2015. 06. 12.

Spam and Phishing Detection참고 문헌 12인용 수 24

한 줄 요약

이 논문은 도메인 이름에 단어 분할을 적용하여 악성 도메인을 가볍고 해석 가능한 방식으로 탐지하는 방법을 제안한다. 전통적인 어휘적 특징만을 사용하는 것보다 탐지 정확도를 크게 향상시킨다. 'free' 또는 'login'과 같은 의미 있는 하위단어를 식별함으로써 성능을 향상시키고, 복잡한 특징 공학이나 외부 데이터 소스 없이도 거의 실시간 분석이 가능하다.

ABSTRACT

In recent years, vulnerable hosts and maliciously registered domains have been frequently involved in mobile attacks. In this paper, we explore the feasibility of detecting malicious domains visited on a cellular network based solely on lexical characteristics of the domain names. In addition to using traditional quantitative features of domain names, we also use a word segmentation algorithm to segment the domain names into individual words to greatly expand the size of the feature set. Experiments on a sample of real-world data from a large cellular network show that using word segmentation improves our ability to detect malicious domains relative to approaches without segmentation, as measured by misclassification rates and areas under the ROC curve. Furthermore, the results are interpretable, allowing one to discover (with little supervision or tuning required) which words are used most often to attract users to malicious domains. Such a lightweight approach could be performed in near-real time when a device attempts to visit a domain. This approach can complement (rather than substitute) other more expensive and time-consuming approaches to similar problems that use richer feature sets.

연구 동기 및 목표

모바일 공격에 사용되는 악성 도메인의 증가하는 위협에 대응하기 위해.
도메인 이름의 어휘적 특징만을 사용하여 악성 도메인 탐지 성능을 향상시키기 위해.
단어 분할이 악성 도메인 탐지에 대한 특징 표현을 향상시킬 수 있는지 탐색하기 위해.
기존의 더 자원을 많이 소비하는 방법들을 보완할 수 있는 가벼운, 거의 실시간 탐지 방법을 개발하기 위해.
악성 도메인에 자주 사용되는 단어를 쉽게 해석 가능한 방식으로 식별할 수 있도록 하기 위해.

제안 방법

도메인 이름을 의미 있는 하위단어(예: 'freeshipping.com'의 'free')로 나누는 단어 분할 알고리즘을 적용한다.
분할된 단어를 추가적인 어휘적 특징으로 포함시켜 특징 집합을 확장한다.
길이, 엔트로피, 문자 분포와 같은 기존의 정량적 특징과 분할된 특징을 결합한다.
확장된 특징 집합을 기반으로 기계학습 분류기(SVM 또는 랜덤 포레스트 등)를 훈련시켜 악성 도메인과 정상 도메인을 구분한다.
모델을 사용하여 악성 의도를 예측하는 데 가장 기여하는 분할된 단어를 식별한다.
실제 모바일 네트워크 데이터를 기반으로 성능과 해석 가능성 평가를 위해 방법을 검증한다.

실험 결과

연구 질문

RQ1기존의 어휘적 특징만을 사용하는 것과 비교해 도메인 이름의 단어 분할이 악성 도메인 탐지 성능을 향상시킬 수 있는가?
RQ2분할된 단어를 포함시킬 경우 악성 도메인 탐지 모델의 오분류율과 AUC에 어떤 영향을 미치는가?
RQ3모델이 악성 도메인에 사용되는 언어적 패턴을 어느 정도 식별하고 해석할 수 있는가?
RQ4이 방법은 최소한의 계산 오버헤드로 거의 실시간으로 구현 가능한가?
RQ5실제 네트워크 환경에서 분할된 방법의 성능은 비분할 기반 기준선 대비 어떻게 비교되는가?

주요 결과

단어 분할을 포함시킴으로써 탐지 성능이 크게 향상되었으며, 분할을 적용하지 않은 모델 대비 오분류율이 감소했다.
단순히 정량적 도메인 특징만을 사용하는 기준선 대비 ROC 곡선 아래 면적(AUC)이 더 높았다.
모델은 'free', 'login', 'account'와 같이 악성 도메인에서 흔히 사용되는 고빈도 단어를 성공적으로 식별하여 해석 가능성의 가능성을 입증했다.
이 방법은 거의 실시간 분석이 가능해 실시간 네트워크 환경에 구현하기에 적합했다.
이 기술은 적은 감독 또는 하이퍼파라미터 튜닝이 필요해 운영적 사용에 있어 실용성을 높였다.
이 방법은 더 복잡한 특징을 기반으로 하되 더 많은 계산 자원이 필요한 기존 시스템을 대체하는 것이 아니라 보완하는 데 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.