QUICK REVIEW

[논문 리뷰] Pinpointing Delay and Forwarding Anomalies Using Large-Scale Traceroute Measurements

Romain Fontugne, Emile Aben|arXiv (Cornell University)|2016. 05. 16.

Network Traffic and Congestion Control참고 문헌 51인용 수 46

한 줄 요약

이 논문은 RIPE Atlas의 대규모 트래서이트 데이터를 활용한 통계적 프레임워크를 제안하여, 새로운 측정을 생성하지 않고도 네트워크 이상 현상—특히 지연 시간 변화와 패킷 전달 실패—를 탐지하고 국지화한다. 수백만 개의 링크를 통해 RTT와 패킷 전달 패턴에 대한 강력한 통계를 적용함으로써, DDoS 공격, 혼잡, 피어링 실패와 같은 교란을 높은 정밀도로 실시간으로 식별할 수 있으며, 거짓 경고를 줄일 수 있다.

ABSTRACT

Understanding network health is essential to improve Internet reliability. For instance, detecting disruptions in peer and provider networks facilitates the identification of connectivity problems. Currently this task is time consuming for network operators. It involves a fair amount of manual observation because operators have little visibility into other networks. In this paper we leverage the RIPE Atlas measurement platform to monitor and analyze network conditions. We propose a set of complementary methods to detect network disruptions from traceroute measurements. A novel method of detecting changes in delays is used to identify congested links, and a packet forwarding model is employed to predict traffic paths and to identify faulty routers in case of packet loss. In addition, aggregating results from each method allows us to easily monitor a network and identify coordinated reports manifesting significant network disruptions, reducing uninteresting alarms. Our contributions consist of a statistical approach providing robust estimation for Internet delays and the study of hundreds of thousands link delays. We present three cases demonstrating that the proposed methods detect real disruptions and provide valuable insights, as well as surprising findings, on the location and impact of identified events.

연구 동기 및 목표

단일 네트워크의 경계를 넘어서 다수의 서비스 제공자 네트워크 건강 상태를 모니터링하는 데 있어 수동 관찰이 시간이 오래 걸리고 제한되어 있음을 해결한다.
트래서이트 데이터에서 성능 지표인 RTT의 낮은 가시성과 높은 변동성으로 인해 신뢰할 수 있는 이상 탐지가 어렵다는 문제를 해결한다.
기존 공개 측정 데이터만을 사용하여 자동화되고 확장 가능한 방법을 개발하여 네트워크 장애—특히 지연 이상과 패킷 손실—를 탐지하고 정확히 국지화한다.
네트워크 운영자가 자신의 네트워크 외부의 문제를 진단할 수 있도록, 고정밀도의 공간적·시간적 정확도로 고장 난 링크와 라우터를 식별한다.
다양한 탐지 방법의 신호를 집계하고 네트워크 간 관련 이벤트를 상관 분석함으로써 거짓 경고를 줄인다.

제안 방법

2015년 5월에서 12월 사이에 11,538개의 IPv4 및 4,307개의 IPv6 프로브에서 28억 개 이상의 IPv4 및 12억 개 이상의 IPv6 트래서이트를 수집하기 위해 RIPE Atlas의 글로벌 프로브 인프라를 활용한다.
파리에서의 트래서이트 측정에서 얻은 RTT 값에 강력한 통계 추정을 적용하여 지연 시간의 급격한 변화를 탐지하고, 노이즈와 이방치를 걸러낸다.
링크 전반에서 정상적인 전달 행동을 학습하고 예측하는 패킷 전달 모델을 구축하여, 응답 없음 또는 피어링 LAN 손실과 같은 돌연한 이상을 식별한다.
책임도 수치(식 9)를 사용하여 라우터나 링크가 전달 실패에 기여할 가능성을 정량화함으로써 정확한 고장 국지화를 가능하게 한다.
각 네트워크의 여러 프로브와 관측 지점에서 이상 신호를 집계하여 이벤트 상관관계를 분석하고 거짓 경고를 줄인다.
RIPE Atlas 스트리밍 API와 통합하여 실시간 탐지 기능을 제공하고, 공개 웹 인터페이스와 API를 통해 결과를 노출하여 재사용을 가능하게 한다.

실험 결과

연구 질문

RQ1대규모 트래서이트 데이터에 대한 강력한 통계 분석이 혼잡 또는 성능 저하를 암시하는 링크 지연 시간 변화를 신뢰성 있게 탐지할 수 있는가?
RQ2트래서이트 데이터에서 학습된 패킷 전달 모델이 갑작스럽게 패킷 손실이나 응답 없음 상태에 빠진 라우터나 링크를 어느 정도 정확하게 식별할 수 있는가?
RQ3지연 시간 변화와 전달 이상과 같은 다수의 이상 탐지 신호를 어떻게 집계하여 거짓 경고를 줄이고 이벤트 상관관계를 향상시킬 수 있는가?
RQ4제안된 방법이 DDoS 공격, 잘못된 설정, 피어링 실패와 같은 실제 네트워크 장애를 높은 공간적·시간적 정밀도로 탐지할 수 있는가?
RQ5기존 공개 측정 데이터만을 사용하여 다양한 자율 시스템(AS)의 트랜지트 링크를 모니터링할 때 이 방법의 확장성과 커버리지 수준은 어떠한가?

주요 결과

통계적 지연 추정기구는 노이즈가 많은 RTT 측정값이 존재하는 상황에서도 수십만 개의 링크에서 지연 시간 변화를 안정적이고 정확하게 탐지하였다.
패킷 전달 모델은 2015년 5월 13일 AMS-IX 피어링 LAN 장애를 성공적으로 탐지하여 770개의 응답 없음 IP 쌍을 식별하고, 11:00 UTC에 심각한 음수 책임도 피크를 보고하였다.
이상적인 RTT 증가와 전달 이상을 탐지함으로써 DDoS 인fra구조 공격을 식별하였으며, 결과는 알려진 사건 일정과 일치하였다.
티어-1 ISP에서의 혼잡은 지속적인 RTT 증가와 전달 이상을 통해 탐지되었으며, 의도하지 않은 트래픽 재루팅과 관련되어 있었고, 네트워크 운영자 보고서로 확인되었다.
2017년 4월 기준으로 시스템은 5,436개의 AS를 모니터링하여 인터넷 내 전체 7,800개의 트랜지트 AS 중 상당 부분을 커버함으로써 확장성과 넓은 커버리지를 입증하였다.
새로운 측정이 필요 없이 공개된 RIPE Atlas 데이터만을 기반으로 장애를 탐지하였으며, 스트리밍 API 통합을 통해 실시간 경고 기능을 제공하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.