Skip to main content
QUICK REVIEW

[論文レビュー] Network Traffic Anomaly Detection Using Recurrent Neural Networks

Benjamin J. Radford, Leonardo M. Apolonio|arXiv (Cornell University)|Mar 28, 2018
Network Security and Intrusion Detection参考文献 9被引用数 122
ひとこと要約

この論文は tokenized netflow sequences に対して教師なしの LSTM RNN を用いて通常のネットワーク挙動をモデル化し、異常なトラフィックを検出する。ISCX IDS dataset で AUC of 0.84 を達成。

ABSTRACT

We show that a recurrent neural network is able to learn a model to represent sequences of communications between computers on a network and can be used to identify outlier network traffic. Defending computer networks is a challenging problem and is typically addressed by manually identifying known malicious actor behavior and then specifying rules to recognize such behavior in network communications. However, these rule-based approaches often generalize poorly and identify only those patterns that are already known to researchers. An alternative approach that does not rely on known malicious behavior patterns can potentially also detect previously unseen patterns. We tokenize and compress netflow into sequences of "words" that form "sentences" representative of a conversation between computers. These sentences are then used to generate a model that learns the semantic and syntactic grammar of the newly generated language. We use Long-Short-Term Memory (LSTM) cell Recurrent Neural Networks (RNN) to capture the complex relationships and nuances of this language. The language model is then used predict the communications between two IPs and the prediction error is used as a measurement of how typical or atyptical the observed communication are. By learning a model that is specific to each network, yet generalized to typical computer-to-computer traffic within and outside the network, a language model is able to identify sequences of network activity that are outliers with respect to the model. We demonstrate positive unsupervised attack identification performance (AUC 0.84) on the ISCX IDS dataset which contains seven days of network activity with normal traffic and four distinct attack patterns.

研究の動機と目的

  • rule-based システムを超えた異常検知によるネットワーク防御の課題を動機づける。
  • ネットワークトラフィック系列の文法を学習する教師なしの LSTM ベース言語モデルを提案する。
  • 学習したモデルがラベル付けされた攻撃データなしで異常なトラフィックを識別できることを示す。
  • proto-byte シーケンス特徴が検出性能で service-port features を上回ることを示す。

提案手法

  • netflow をトークン化し、コンピュータ間の会話を表す文を形成する単語のシーケンスに圧縮する。
  • 2 種の特徴セットを使用: proto-byte sequences と service-port sequences、20% のドロップアウトと2 層の積み重ねた bidirectional LSTM を適用。
  • トークンを 100 次元空間に写像する埋め込み層を訓練し、10-token ウィンドウで次のトークンを予測する。
  • 予測に対して多クラス対数損失として異常スコアを評価し、dyad-hour 毎の最大外れ値スコアを異常指標として用いる。
  • 堅牢性とデータ要件を評価するために clean baseline、dirty baseline、NoDoS シナリオを比較する。

実験結果

リサーチクエスチョン

  • RQ1ラベル付けされた攻撃データなしで、教師なし LSTM 言語モデルは通常のネットワークトラフィックを学習して異常または悪意のある活動を識別できるか?
  • RQ2異なるトークン化方式(proto-byte vs. service port)はネットワークトラフィックの異常検知性能にどう影響するか?
  • RQ3攻撃データを含む dirty データで訓練すると、クリーンデータで訓練する場合より異常検知が改善するか?
  • RQ4学習データから DoS/DDoS トラフィックを除去した場合(NoDoS)、アプローチは頑健か?

主な発見

  • Proto-byte sequence モデルはすべてのシナリオで一貫して service-port sequence モデルを上回る。
  • Dirty baseline モデル(攻撃を含むデータで訓練)は、すべての場合において clean baseline モデルを上回る。
  • NoDoS proto-byte モデルは attack 検出のための dirty baseline proto-byte モデルと実質的に同じ性能を示す。
  • The method achieves an Area Under the ROC Curve (AUC) of 0.84 on the ISCX IDS dataset for unsupervised anomaly detection.
  • The approach demonstrates that learning a network-specific yet generalizable model can flag malicious activity without pristine training data.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。