Skip to main content
QUICK REVIEW

[論文レビュー] NetML: A Challenge for Network Traffic Analytics

Onur Barut, Yan Luo|arXiv (Cornell University)|Apr 25, 2020
Network Security and Intrusion Detection参考文献 22被引用数 23
ひとこと要約

この論文は、マルウェア検出およびアプリケーション分類のための合計約130万件のラベル付きネットワークフローを含む、包括的なオープンベンチマークNetMLを紹介する。NetMLはメタデータ特徴量、アンラッキング済みの生パケット、およびランダムフォレスト、SVM、MLPを用いたベースライン結果を提供し、ホスティングされたチャレンジプラットフォームを通じて再現可能でAI駆動のネットワークフロー分析研究を可能にする目的である。

ABSTRACT

Classifying network traffic is the basis for important network applications. Prior research in this area has faced challenges on the availability of representative datasets, and many of the results cannot be readily reproduced. Such a problem is exacerbated by emerging data-driven machine learning based approaches. To address this issue, we provide three open datasets containing almost 1.3M labeled flows in total, with flow features and anonymized raw packets, for the research community. We focus on broad aspects in network traffic analysis, including both malware detection and application classification. We release the datasets in the form of an open challenge called NetML and implement several machine learning methods including random-forest, SVM and MLP. As we continue to grow NetML, we expect the datasets to serve as a common platform for AI driven, reproducible research on network flow analytics.

研究の動機と目的

  • ネットワークトラフィック分析(NTA)研究における標準的でオープンかつ再現可能なデータセットの不足に対処すること。
  • 特にマルウェア検出およびアプリケーション分類を対象として、機械学習モデルの評価と比較が可能な共通のベンチマークプラットフォームを提供すること。
  • ラベル付きネットワークフローとメタデータ、および匿名化された生パケットを備えた3つのオープンデータセット—NetML、CICIDS2017、non-vpn2016—を収集・公開すること。
  • コミュニティ参加を促進し、新しい手法の体系的評価を可能にするために、公開チャレンジおよびランクイングを主催すること。
  • 共有データと標準化された評価を用いて、将来的なAI駆動で再現可能なネットワークフロー分析研究の基盤を構築すること。

提案手法

  • 公開可能なソースから3つのオープンデータセットを収集:NetML(Stratosphere IPS から)、CICIDS2017、non-vpn2016(ISCX-VPN-nonVPN2016 から)。
  • すべてのデータセットに対して、パケット数、バイト数、継続時間、到着間隔時間などの標準化されたメタデータ特徴量を抽出した。
  • 複数のアノテーションレベルでデータを準備:二値分類(マルウェア/健全)、多クラス分類(20種類のマルウェアタイプ)、細分化されたアプリケーション分類(最大31クラス)。
  • ランダムフォレスト、SVM、およびマルチレイヤーパーセプトロン(MLP)を用いて、すべてのデータセットで二値分類および多クラス分類タスクのベースラインモデルを実装した。
  • GitHub上で評価サーバーとランクイングをホスティングし、NetML Challenge 2020におけるコミュニティ参加を可能にした。
  • 将来的な研究の基準点として、特徴量の詳細な分析とベースライン性能指標(F1、mAP、TPR、FAR)を提供した。

実験結果

リサーチクエスチョン

  • RQ1標準的でオープンかつ再現可能なベンチマークは、ネットワークトラフィック分析における機械学習モデルの評価と比較をどのように改善するか?
  • RQ2一般的な機械学習モデル(ランダムフォレスト、SVM、MLP)は、マルウェア検出およびアプリケーション分類を含む多様なネットワークトラフィック分類タスクでどの程度の性能を示すか?
  • RQ3クラスの不均衡とアノテーションの粒度の違いが、ネットワークフロー分類におけるモデル性能に与える影響は何か?
  • RQ4メタデータのみの特徴量は、TLS や DNS や HTTP などのより豊富な特徴量と比較して、どの程度有効に機能するか?
  • RQ5コミュニティ主導のチャレンジプラットフォームと公開ランクイングは、ネットワークトラフィック分析研究の進展をどの程度加速するか?

主な発見

  • ランダムフォレストはすべてのデータセットで最良の性能を示し、NetMLのマルウェア検出タスクでは、真正陽性率(TPR)が0.9922、誤認証率(FAR)が0.0051を達成した。
  • CICIDS2017データセットでは、MLPモデルが二値マルウェア検出でTPR 0.9865、FAR 0.0067を達成し、優れた汎化性能を示した。
  • NetMLデータセットでは、DDoSクラスが完全に検出され(100%の正確さ)、ssh-patatorクラスでの誤分類はたった1件にとどまった。
  • non-vpn2016データセットでは性能が著しく低く、ランダムフォレストを用いた上位分類で最高のF1スコア0.6273、mAP 0.3257を記録した。
  • クラスの不均衡により強い予測バイアスが生じ、non-vpn2016データセットの全アノテーションレベルで音声クラスが予測を支配した。
  • 細分化された分類性能は最も低く、F1スコア0.2486、mAP 0.2127を記録し、詳細なトラフィック分類におけるさらなる改善の余地が大きいことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。