Skip to main content
QUICK REVIEW

[論文レビュー] Network Intrusion Detection based on LSTM and Feature Embedding

Hyeokmin Gwon, Chungjun Lee|arXiv (Cornell University)|Nov 26, 2019
Network Security and Intrusion Detection参考文献 26被引用数 25
ひとこと要約

本稿では、長短期記憶(LSTM)ネットワークを用いてネットワークトラフィックの時系列的依存関係をモデル化し、特徴量埋め込みを用いて分類的ネットワーク特徴量を符号化する、深層学習ベースのネットワークインシデント検出システムを提案する。この手法は、UNSW-NB15データセットにおいて、従来の機械学習モデルを著しく上回る99.72%のバイナリ分類精度を達成し、時系列パターンと記号的特徴量の意味を効果的に捉えることに成功している。

ABSTRACT

Growing number of network devices and services have led to increasing demand for protective measures as hackers launch attacks to paralyze or steal information from victim systems. Intrusion Detection System (IDS) is one of the essential elements of network perimeter security which detects the attacks by inspecting network traffic packets or operating system logs. While existing works demonstrated effectiveness of various machine learning techniques, only few of them utilized the time-series information of network traffic data. Also, categorical information has not been included in neural network based approaches. In this paper, we propose network intrusion detection models based on sequential information using long short-term memory (LSTM) network and categorical information using the embedding technique. We have experimented the models with UNSW-NB15, which is a comprehensive network traffic dataset. The experiment results confirm that the proposed method improve the performance, observing binary classification accuracy of 99.72\%.

研究の動機と目的

  • 従来の機械学習ベースのインシデント検出システムが、時系列的シーケンスや分類的ネットワーク特徴量を十分に活用できないという限界を是正すること。
  • ネットワークトラフィックにおける順序パターンのモデリングにLSTMネットワークを統合することで、検出精度を向上させること。
  • 神経ネットワークモデルに適した密なベクトル表現に変換可能な、プロトコルタイプやサービスなどの分類的ネットワーク特徴量を効果的に表現するための特徴量埋め込み技術を組み込むこと。
  • 提案手法を、ネットワークインシデント検出の現代的ベンチマークであるUNSW-NB15データセット上で評価すること。
  • LSTMと特徴量埋め込みを組み合わせることで、単独のモデルや従来の機械学習手法に比べて優れた性能を示すことを実証すること。

提案手法

  • LSTMネットワークを用いて、時系列に整列したパケット記録を入力シーケンスとして処理することで、ネットワークトラフィックにおける順序的依存関係をモデル化する。
  • 分類的特徴量(例:プロトコル、サービス、状態)に対して特徴量埋め込みを適用し、ニューラルネットワークに適した密なベクトル表現に変換する。
  • 複数の学習設定を評価:M2M(多数対多数)、M2O(多数対1)、M2B(多クラス対バイナリ分類)を用いて、シーケンスモデリングと出力予測を最適化する。
  • UNSW-NB15データセットを用いてモデルを学習・検証し、最適なパフォーマンスを得るためにシーケンス長とハイパーパrameterを調整する。
  • 標準指標を用いて性能を評価:精度、F1スコア、検証曲線を用いて汎化性能と安定性を評価する。
  • 予測時間の測定を、さまざまなシーケンス長に対して実施し、リアルタイム実装の可能性を評価する。

実験結果

リサーチクエスチョン

  • RQ1LSTMベースのモデルは、インシデント検出の向上を図るために、ネットワークトラフィックシーケンスにおける時系列的依存関係を効果的に捉えることができるか?
  • RQ2分類的ネットワーク特徴量に対する特徴量埋め込みの組み込みが、深層学習ベースのインシデント検出システムの性能に与える影響は何か?
  • RQ3LSTMと特徴量埋め込みを組み合わせることで、MLP やランダムフォレスト、RepTree などの従来の機械学習モデルに比べて顕著な性能向上が得られるか?
  • RQ4高い検出精度と安定性を達成するための最適なシーケンス長と学習設定(M2M、M2O、M2B)は何か?
  • RQ5予測時間の測定結果に基づいて、提案されたモデルはリアルタイム展開に適しているか?

主な発見

  • LSTM(M2M + EMB)モデルは、UNSW-NB15テストセットで最高のバイナリ分類精度99.72%を達成し、F1スコアは99.75%であった。
  • LSTM(M2M + EMB)モデルは、ベースラインのMLPモデルに比べて約16ポイントの精度向上を示し、時系列モデリングの有効性を裏付けた。
  • 特徴量埋め込みを適用したモデルは、バイナリ分類で約1%、多クラス分類で約2%の性能向上を示し、分類的特徴量の意味的特徴を捉える価値があることを示した。
  • M2M + EMB設定は、図7および図8の検証曲線からも確認されたように、さまざまなシーケンス長において最も安定した性能を示した。
  • 予測時間はシーケンス長に比例して増加したため、最適なシーケンス長の選定によりリアルタイム展開が可能であると考えられた。
  • M2B(多クラス対バイナリ)変換は、顕著な性能向上をもたらさず、このタスクにおいて直接的なバイナリ分類が十分であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。