Skip to main content
QUICK REVIEW

[論文レビュー] Sequence Aggregation Rules for Anomaly Detection in Computer Network Traffic

Benjamin J. Radford, Bartley D. Richardson|arXiv (Cornell University)|May 9, 2018
Network Security and Intrusion Detection参考文献 7被引用数 49
ひとこと要約

この論文は、LSTM RNNと頻度ベースのベースラインを用いて、CICIDS2017のネットワークフロー データに対する無監督異常検知を評価し、単純な頻度モデルが多くの攻撃でLSTMモデルと同等または上回ることを示しています。

ABSTRACT

We evaluate methods for applying unsupervised anomaly detection to cybersecurity applications on computer network traffic data, or flow. We borrow from the natural language processing literature and conceptualize flow as a sort of "language" spoken between machines. Five sequence aggregation rules are evaluated for their efficacy in flagging multiple attack types in a labeled flow dataset, CICIDS2017. For sequence modeling, we rely on long short-term memory (LSTM) recurrent neural networks (RNN). Additionally, a simple frequency-based model is described and its performance with respect to attack detection is compared to the LSTM models. We conclude that the frequency-based model tends to perform as well as or better than the LSTM models for the tasks at hand, with a few notable exceptions.

研究の動機と目的

  • ネットワークフロードデータに対するサイバーセキュリティの無監督異常検知を動機づける。
  • ネットワークトラフィックを言語としてモデル化し、5つのシーケンス集約ルールを評価する。
  • LSTMベースのシーケンスモデルを単純な頻度ベースの基線と比較する。
  • 2つの特徴セットを評価する(protobyte シーケンスとサービスポート シーケンス)CICIDS2017で。
  • 集約戦略と異常検知の実務的影響についてガイダンスを提供する。

提案手法

  • フロー データを2つの特徴セットを用いてトークン系列として表現する。 protobyte トークンとサービスポート トークン。
  • 5つの集約ルール(source, destination, dyad, internal, external)を定義し、それぞれの単位でグルーピングされた hourly sequences を作成する。
  • 埋め込み層と密結合出力層を含む2層の双方向LSTMアーキテクチャでシーケンスをモデル化し、多クラス予測にトレーニングする。
  • 同じ sequence 内の先行トークンに基づく正しいトークンの予測確率に基づいてトークンレベルの異常をスコアリングする。
  • LSTMベースのスコアを頻度ベースの基準と比較し、サンプル外トークンでAUCを用いて評価する。
  • ブートストラップ再抽出で複数のモデルを訓練し、ランごとの平均AUCを報告する。

実験結果

リサーチクエスチョン

  • RQ1 attack labels を訓練に使用せずに、無監督シーケンスモデリングはネットワークフロー データの攻撃を検出できるか。
  • RQ2異なる集約ルールは特徴セット間で異なる異常検知性能にどのように影響するか。
  • RQ3CICIDS2017のフロー データについて、単純な頻度ベースモデルはLSTMモデルと同等またはそれ以上の性能を示すか。
  • RQ4Protobyte ベースとポートベースのシーケンス表現で、どの攻撃タイプが最も検出しやすく、どの攻撃タイプが検出しにくいか。
  • RQ5実運用展開におけるモデル選択と特徴設計の実務的影響は何か。

主な発見

  • 集約ルールと特徴セットを横断して、頻度ベースのモデルが最良のLSTMモデルの性能と同等以上を示すことが多い。
  • Protobyte シーケンスを用いた場合、SQLインジェクションと侵入検知でLSTMsが性能を向上させる。
  • ポートシーケンスは多くの攻撃で高い検知力を示し、頻度モデルを用いた場合にはHeartbleedとPort Scanで高いAUCを達成する。
  • Heartbleedはモデルを超えて高いAUC(0.95–1.0)で一貫して検出可能。
  • 多くの攻撃でポートシーケンス分析はProtobyteシーケンスより平均AUCが高い。
  • LSTMが達成した最大の平均AUCは0.71(external IP aggregates)、一方でポート頻度モデルは約0.87の平均AUCを達成。
  • 著者らは、モデルと特徴セットの長所を活かすためのアンサンブル異常検知を提案している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。