QUICK REVIEW

[論文レビュー] LSTM-Based System-Call Language Modeling and Robust Ensemble Method for Designing Host-Based Intrusion Detection Systems

Gyuwan Kim, Hayoon Yi|arXiv (Cornell University)|Nov 6, 2016

Network Security and Intrusion Detection参考文献 26被引用数 90

ひとこと要約

本稿では、異常検出ベースのホストインラインススペクション検出（HIDS）のためのLSTMベースのシステムコール言語モデリング手法を提案する。この手法は、順序的な意味構造を活用して正常動作をモデル化し、誤検出を低減する。また、複数のしきい値分類器を統合する画期的なロバストアンサンブル手法を導入し、ベンチマークデータセット上で検出精度と耐障害性を顕著に向上させつつ、低コストのトレーニングオーバーヘッドと高いポータビリティを維持する。

ABSTRACT

In computer security, designing a robust intrusion detection system is one of the most fundamental and important problems. In this paper, we propose a system-call language-modeling approach for designing anomaly-based host intrusion detection systems. To remedy the issue of high false-alarm rates commonly arising in conventional methods, we employ a novel ensemble method that blends multiple thresholding classifiers into a single one, making it possible to accumulate 'highly normal' sequences. The proposed system-call language model has various advantages leveraged by the fact that it can learn the semantic meaning and interactions of each system call that existing methods cannot effectively consider. Through diverse experiments on public benchmark datasets, we demonstrate the validity and effectiveness of the proposed method. Moreover, we show that our model possesses high portability, which is one of the key aspects of realizing successful intrusion detection systems.

研究の動機と目的

従来の異常検出ベースのホストインラインススペクション検出システム（HIDS）における高い誤検出率の問題に対処すること。
深層学習を用いてシステムコールの系列を自然言語としてモデル化し、システムコール間の意味的および文脈的関係を捉えること。
大規模なパターンデータベースや辞書を必要としない、コンactでポータブルかつ効率的な検出フレームワークを開発すること。
複数のしきい値分類器を統合する画期的なアンサンブル手法を導入し、誤検出を低減すること。
本手法の有効性と一般化能力を、多様な公開ベンチマークデータセット上で示すこと。

提案手法

本システムは、長短記憶（LSTM）ネットワークを用いて、システムコールの系列を言語としてモデル化し、個々のコールの意味とそれらの文脈的相互作用を学習する。
神経言語モデルをシステムコールトレース上でエンドツーエンドに訓練し、コール系列の尤度を推定することで、低尤度の系列を用いた異常検出を可能にする。
バックプロパゲーションを通じて、システムコールの密なベクトル表現（埋め込み）を学習し、意味的に類似したコールが埋め込み空間でクラスタリングされるようにする。
画期的なロバストアンサンブル手法により、複数のしきい値ベースの分類器の出力を集約し、より信頼性の高い1つの検出意思決定を生成する。
アンサンブル手法は、「非常に正常な」系列の蓄積に焦点を当てており、微細な異常を検出する感度を高めるとともに、ノイズを抑制する。
フレームワークは、標準的な系列予測損失（例：交差エントロピー）を用いてトレーニングされ、テスト系列における尤度スコアを用いて評価される。

実験結果

リサーチクエスチョン

RQ1LSTMベースの言語モデルは、システムコール間の意味的および系列的関係を効果的に学習し、正常なシステム動作をモデル化できるか？
RQ2提案されたアンサンブル手法は、従来のしきい値処理と比較して、HIDSにおける誤検出率をどの程度低減できるか？
RQ3システムコール言語モデルは、異なるベンチマークデータセットおよびシステムワークロードにどの程度一般化できるか？
RQ4攻撃の署名を事前に知らなくても、正常動作のパターンを学習することで、ゼロデイ攻撃や未確認の攻撃を検出できるか？
RQ5従来の署名ベースまたは特徴ベースのHIDSアプローチと比較して、モデルのポータビリティと計算効率はどの程度か？

主な発見

提案されたシステムコール言語モデルは、関数的に類似したシステムコール（例：read/write、open/close、select/poll）を学習された埋め込み空間でクラスタリングし、意味理解が図られていることを確認した。
モデルは高いポータビリティを示し、そのコンパクトで順序的なアーキテクチャのおかげで、トレーニングオーバーヘッドが低く、パラメータのストレージ領域も小さい。
ロバストアンサンブル手法により、複数の分類器を統合することで、誤検出率が顕著に低減され、個々のしきい値処理アプローチを凌駆した。
公開ベンチマークデータセットにおいて、本手法は多様なワークロードにわたり、最先端の検出パフォーマンスを達成し、高い精度と耐障害性を示した。
モデルはシステムコール系列における長距離依存関係を効果的に捉えており、従来の周波数ベースの手法が見逃す複雑な異常パターンの検出が可能である。
フレームワークは計算的に効率的であり、順序的な行列演算に依存しているため、リアルタイムでの展開に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。