[논문 리뷰] NetML: A Challenge for Network Traffic Analytics
이 논문은 악성코드 탐지 및 애플리케이션 분류를 위한 약 130만 개의 레이블이 부여된 네트워크 플로우를 포함하는 세 가지 정제된 데이터셋을 포함하는 네트워크 트래픽 분석을 위한 종합적인 오픈 벤치마크인 NetML을 소개한다. 메타데이터 특징, 원본 익명화된 패킷, 그리고 랜덤 포레스트, 서포트 벡터 머신, 다층 퍼셉트론을 사용한 베이스라인 결과를 제공하며, 호스팅된 챌린지 플랫폼을 통해 재현 가능하고 인공지능 기반의 네트워크 플로우 분석 연구를 가능하게 하는 것을 목표로 한다.
Classifying network traffic is the basis for important network applications. Prior research in this area has faced challenges on the availability of representative datasets, and many of the results cannot be readily reproduced. Such a problem is exacerbated by emerging data-driven machine learning based approaches. To address this issue, we provide three open datasets containing almost 1.3M labeled flows in total, with flow features and anonymized raw packets, for the research community. We focus on broad aspects in network traffic analysis, including both malware detection and application classification. We release the datasets in the form of an open challenge called NetML and implement several machine learning methods including random-forest, SVM and MLP. As we continue to grow NetML, we expect the datasets to serve as a common platform for AI driven, reproducible research on network flow analytics.
연구 동기 및 목표
- 네트워크 트래픽 분석(NTA) 연구를 위한 표준화되고, 오픈된, 재현 가능한 데이터셋의 부족을 해결하기 위해.
- 특히 악성코드 탐지 및 애플리케이션 분류를 위한 기계학습 모델을 평가하고 비교할 수 있는 공통의 벤치마크 플랫폼을 제공하기 위해.
- 표준화된 레이블이 부여된 네트워크 플로우와 메타데이터, 익명화된 원본 패킷을 포함하는 세 가지 오픈 데이터셋—NetML, CICIDS2017, non-vpn2016—을 정제하고 공개하기 위해.
- 공개 챌린지와 랭킹을 통해 커뮤니티의 참여를 장려하고 새로운 방법의 체계적 평가를 촉진하기 위해.
- 공유된 데이터와 표준화된 평가를 통해 미래의 AI 기반, 재현 가능한 네트워크 플로우 분석 연구의 기반을 마련하기 위해.
제안 방법
- 공개된 자료에서 유래한 세 가지 오픈 데이터셋을 정제: NetML(Statosphere IPS에서 확보), CICIDS2017, non-vpn2016(ISCX-VPN-nonVPN2016에서 확보).
- 모든 데이터셋에 대해 패킷 수, 바이트 수, 지속 시간, 간격 시간 등의 표준화된 메타데이터 플로우 특징을 추출.
- 다중 수준의 레이블링을 포함한 데이터 준비: 2진수(악성/정상), 다중 클래스(20종류의 악성코드 유형), 세분화된 애플리케이션 분류(최대 31개 클래스).
- 랜덤 포레스트, 서포트 벡터 머신, 다층 퍼셉트론(MLP)을 사용해 모든 데이터셋에 대해 이진 및 다중 클래스 분류 작업을 위한 베이스라인 모델을 구현.
- GitHub에 평가 서버와 랭킹을 호스팅하여 NetML 챌린지 2020에 대한 커뮤니티 참여를 가능하게 했다.
- 세부 특징 분석과 베이스라인 성능 지표(F1, mAP, TPR, FAR)를 제공하여 향후 연구의 기준점이 되도록 했다.
실험 결과
연구 질문
- RQ1표준화되고, 오픈되어 있으며, 재현 가능한 벤치마크가 네트워크 트래픽 분석에서 기계학습 모델의 평가 및 비교를 향상시킬 수 있는가?
- RQ2일반적인 기계학습 모델(RF, SVM, MLP)이 악성코드 탐지 및 애플리케이션 분류를 포함한 다양한 네트워크 트래픽 분류 작업에서 어떻게 성능을 내는가?
- RQ3클래스 불균형과 레이블링의 세분성 수준이 네트워크 플로우 분류에서 모델 성능에 어떤 영향을 미치는가?
- RQ4메타데이터만으로도 효과적인 분류가 가능한가? 또한 TLS, DNS, HTTP와 같은 더 풍부한 특징과 비교했을 때 어떤가?
- RQ5공개 랭킹을 갖춘 커뮤니티 기반 챌린지 플랫폼은 네트워크 트래픽 분석 연구의 진전을 가속화할 수 있는가?
주요 결과
- 랜덤 포레스트는 모든 데이터셋에서 최고의 성능을 보였으며, NetML 악성코드 탐지 작업에서 진정 양성률(TPR)은 0.9922, 오류 수용률(FAR)은 0.0051을 기록했다.
- CICIDS2017 데이터셋에서 MLP 모델은 이진 악성코드 탐지에서 TPR 0.9865와 FAR 0.0067를 기록하여 뛰어난 일반화 능력을 보였다.
- NetML 데이터셋에서 DDoS 유형은 랜덤 포레스트 모델에 의해 완벽하게 탐지되었으며(100% 정확도), ssh-patator 유형에서 오직 한 건의 잘못 분류된 샘플만 존재했다.
- non-vpn2016 데이터셋에서는 성능이 상당히 낮아, 최고의 F1 점수는 0.6273, mAP는 0.3257로, 랜덤 포레스트를 사용한 상위 수준의 분류에서 기록되었다.
- 클래스 불균형으로 인해 강한 예측 편향이 발생했으며, non-vpn2016 데이터셋에서 모든 레이블 수준에서 오디오 유형이 예측를 지배했다.
- 세분화된 분류 성능은 가장 낮았으며, F1 점수 0.2486과 mAP 0.2127을 기록하여 세밀한 트래픽 분류 향상 여지가 크다는 점을 시사했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.