Skip to main content
QUICK REVIEW

[논문 리뷰] HinDom: A Robust Malicious Domain Detection System based on Heterogeneous Information Network with Transductive Classification

Xiaoqing Sun, Mingkai Tong|arXiv (Cornell University)|2019. 09. 04.
Network Security and Intrusion Detection인용 수 24
한 줄 요약

HinDom은 클라이언트, 도메인, IP 주소를 포함한 다중 관계 유형을 갖는 이질적 정보 네트워크(HIN)로 DNS 활동을 모델링하는 강력한 악성 도메인 탐지 시스템이다. 메타패스 기반의 전도성 분류를 통해 단지 10%의 레이블 데이터로도 높은 정확도(F1-score: 0.9902)를 달성하여 실제 네트워크에서 기존에 알려지지 않은 악성 도메인, 예를 들어 MsraMiner 봇넷을 탐지할 수 있다.

ABSTRACT

Domain name system (DNS) is a crucial part of the Internet, yet has been widely exploited by cyber attackers. Apart from making static methods like blacklists or sinkholes infeasible, some weasel attackers can even bypass detection systems with machine learning based classifiers. As a solution to this problem, we propose a robust domain detection system named HinDom. Instead of relying on manually selected features, HinDom models the DNS scene as a Heterogeneous Information Network (HIN) consist of clients, domains, IP addresses and their diverse relationships. Besides, the metapath-based transductive classification method enables HinDom to detect malicious domains with only a small fraction of labeled samples. So far as we know, this is the first work to apply HIN in DNS analysis. We build a prototype of HinDom and evaluate it in CERNET2 and TUNET. The results reveal that HinDom is accurate, robust and can identify previously unknown malicious domains.

연구 동기 및 목표

  • 진화하는 악성 도메인 탐지에서 전통적인 특성 기반 및 블랙리스트 기반 방법의 한계를 해결하기 위해.
  • 학습 탐지 모델을 위한 대규모 수작업 레이블 데이터셋에 대한 의존도를 줄이기 위해.
  • 도메인, 클라이언트, IP 주소 간의 구조적 연관성을 활용하여 탐지 정확도를 향상시키기 위해.
  • DNS 트래픽 내의 의미적 연관성 분석을 통해 기존에 알려지지 않은 악성 도메인을 조기에 탐지할 수 있도록 하기 위해.
  • 실제 네트워크 환경(예: CERNET2 및 TUNET)에서 구현 가능한 실용적이고 배포 가능한 시스템을 개발하기 위해.

제안 방법

  • 클라이언트, 도메인, IP 주소, 그리고 이들의 여섯 가지 고유한 관계를 포함한 네 가지 노드 유형을 갖는 이질적 정보 네트워크(HIN)로 DNS 트래픽을 모델링하기.
  • 다양한 도메인 간의 구조적 연관성을 포착하기 위해 메타패스(예: Client-Query-Domain-Resolve-IP)를 정의하기.
  • 다양한 메타패스를 기반으로 PathSim을 사용해 도메인 유사도를 계산하고, 라플라시안 스코어를 통해 다중 시각 표현을 융합하기.
  • LLGC와 GNetMine에 영감을 얻어, 미레이블된 데이터를 활용하고 일반화 능력을 향상시키기 위해 메타패스 기반의 전도성 분류 방법을 적용하기.
  • 실제 구현에서 노이즈를 줄이고 효율성을 향상시키기 위해 필터링 규칙을 통합하기.
  • 행렬 곱셈과 인접 행렬을 사용한 그래프 기반 계산을 통해 구조적 관계를 통해 레이블을 전파하기.

실험 결과

연구 질문

  • RQ1이질적 정보 네트워크(HIN)는 악성 도메인 탐지에 복잡한 DNS 관계를 효과적으로 모델링할 수 있는가?
  • RQ2메타패스 기반의 전도성 분류는 대규모 레이블 데이터셋에 대한 의존도를 줄이면서도 높은 탐지 정확도를 유지할 수 있는가?
  • RQ3HinDom은 공개 블랙리스트에 등재되지 않은 기존에 알려지지 않은 악성 도메인을 탐지할 수 있는가?
  • RQ4동적이고 노이즈가 많은 트래픽을 가지는 실제 네트워크 환경에서 HinDom의 성능은 어떠한가?
  • RQ5서명 기반 방법이 아닌 구조적 연관성을 통해 은폐된 장기 잠복 봇넷을 HinDom이 식별할 수 있는가?

주요 결과

  • 레이블 데이터의 90%가 존재할 경우, HinDom은 F1-score 0.9902와 정확도 0.9960을 기록하여 뛰어난 성능을 보였다.
  • 단지 10%의 레이블 샘플만 존재할 경우에도 HinDom은 F1-score 0.9116과 정확도 0.9626을 유지하여 저 supervision 환경에서도 뛰어난 강건성을 입증했다.
  • 시스템은 MsraMiner 마이닝 봇넷을 성공적으로 탐지했으며, 이는 어떤 공개 블랙리스트에도 등재되지 않은 도메인을 포함해 공개 공개 이전 수개월 전에 탐지한 바 있다.
  • CERNET2와 TUNET에서 HinDom은 높은 정밀도로 악성 도메인을 식별했으며, 기존에 알려진 봇넷의 이전에 탐지되지 않은 변종도 포함했다.
  • 전문가 검증을 통해 탐지 결과의 신뢰성이 확인되었으며, 일부 악성 도메인은 최대 수개월 전에 사전에 발견된 바 있다.
  • 시스템은 교육용 네트워크 환경에서 실용성을 입증했으며, 기존 시스템이 놓친 위협까지 탐지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.