QUICK REVIEW

[논문 리뷰] Detecting DNS Tunnels Using Character Frequency Analysis

Kenton Born, David A. Gustafson|arXiv (Cornell University)|2010. 04. 25.

Internet Traffic Analysis and Secure E-voting참고 문헌 9인용 수 69

한 줄 요약

이 논문은 DNS 쿼리 및 응답 도메인의 문자 빈도 패턴을 분석하여 DNS 터널을 탐지하는 새로운 방법을 제안한다. 자연어에서 일반적인 특징인 지프의 법칙에서의 편차를 관찰함으로써, 유니그램, 바이그램, 트리그램 빈도를 활용하여 정상 트래픽에서의 분포를 기반으로 하며, 터널링된 데이터에서 특징적인 균일한 분포를 보이는 비정상적인 패턴을 식별함으로써, 높은 정확도로 다수의 도메인에서 터널링을 탐지할 수 있다.

ABSTRACT

High-bandwidth covert channels pose significant risks to sensitive and proprietary information inside company networks. Domain Name System (DNS) tunnels provide a means to covertly infiltrate and exfiltrate large amounts of information passed network boundaries. This paper explores the possibility of detecting DNS tunnels by analyzing the unigram, bigram, and trigram character frequencies of domains in DNS queries and responses. It is empirically shown how domains follow Zipf's law in a similar pattern to natural languages, whereas tunneled traffic has more evenly distributed character frequencies. This approach allows tunnels to be detected across multiple domains, whereas previous methods typically concentrate on monitoring point to point systems. Anomalies are quickly discovered when tunneled traffic is compared to the character frequency fingerprint of legitimate domain traffic.

연구 동기 및 목표

DNS 터널을 통해 네트워크 방화벽을 우회하는 고대역폭 코어트 채널의 증가하는 위협에 대응하기 위해.
특정 터널링 프로토콜이나 설정에 대한 사전 지식이 필요 없는 다중 도메인 탐지를 가능하게 하여, 점대점 탐지 방법의 한계를 극복하기 위해.
자연어 패턴에서 벗어나는 통계적 이질성을 보이는 DNS 도메인 이름에서 잠재적인 데이터 유출를 식별하기 위해.
도메인 이름의 언어학적 특성에 기반한 신뢰성 있고 확장 가능한 탐지 메커니즘을 구축하기 위해.
터널링된 트래픽에서의 문자 빈도 분포가 정상 DNS 트래픽과 상당히 다름을 입증하기 위해.

제안 방법

DNS 쿼리 및 응답 도메인의 유니그램, 바이그램, 트리그램 문자 빈도를 분석한다.
실증적으로 정상 도메인이 지프의 법칙을 따르며, 자연어와 유사한 비대칭 빈도 분포를 보임을 입증한다.
정상 도메인 트래픽에서 유도된 기준 지문과 비교하여 DNS 트래픽의 관측된 문자 빈도 분포를 분석한다.
문자 빈도가 균일하게 분포하는 경우, 즉 암호화되거나 터널링된 데이터의 특징을 보일 때 이질성을 식별한다.
기대되는 언어학적 패턴에서의 통계적 편차를 잠재적인 DNS 터널링의 탐지 신호로 사용한다.
특정 터널링 프로토콜이나 설정에 대한 사전 지식 없이도, 다수의 도메인에 걸쳐 터널링 활동을 탐지하기 위해 이 방법을 적용한다.

실험 결과

연구 질문

RQ1DNS 도메인 이름의 문자 빈도 패턴이 정상 트래픽과 터널링 트래픽을 신뢰성 있게 구분할 수 있는가?
RQ2DNS 터널링 트래픽이 자연어 도메인의 빈도 분포와 상당히 다름을 보이는가?
RQ3지프의 법칙에 기반한 통계 모델이 사전 설정 없이도 다수의 도메인에서 DNS 터널링을 탐지할 수 있는가?
RQ4점대점 모니터링 기법에 비해 문자 빈도 분석은 코어트 채널을 식별하는 데 얼마나 효과적인가?
RQ5터널링된 트래픽의 문자 빈도 분포는 정상 DNS 트래픽에 비해 어느 정도 균일한가?

주요 결과

정상 DNS 도메인은 지프의 법칙을 거의 정확히 따르며, 언어학적 패턴을 보임을 확인하였다.
터널링된 트래픽는 자연어의 비대칭 분포에서 크게 벗어나 균일하게 분포된 문자 빈도를 보였다.
이 방법은 점대점 탐지 시스템의 한계를 극복하고, 다수의 도메인에서 DNS 터널링을 성공적으로 탐지하였다.
정상 트래픽의 기준 지문과 비교했을 때, 문자 빈도의 이질성이 신속하게 식별되어 실시간 탐지가 가능하다.
심지어 터널링 프로토콜이 무작위로 보이는 도메인 이름을 사용하더라도, 언어의 통계적 특성을 활용함으로써 높은 탐지 정확도를 달성하였다.
기반 데이터 인코딩이 균일한 문자 분포를 유도하는 한, 다양한 터널링 기법의 변형에 대해 이 기법은 강건함을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.