QUICK REVIEW

[論文レビュー] Deep Learning for Unsupervised Insider Threat Detection in Structured Cybersecurity Data Streams

Aaron Tuor, Samuel Kaplan|arXiv (Cornell University)|Oct 2, 2017

Network Security and Intrusion Detection被引用数 151

ひとこと要約

この論文は、オンラインの教師なし深層学習（DNNおよびLSTM）を構造化ストリーミングシステムログに対して、リアルタイムで内部関係者の脅威を検出する。解釈可能性のために異常スコアを寄与特徴に分解可能にする。CERT Insider Threat v6.2データセットでPCA、SVM、Isolation Forestのベースラインよりリコールが優れていることを示す。

ABSTRACT

Analysis of an organization's computer network activity is a key component of early detection and mitigation of insider threat, a growing concern for many organizations. Raw system logs are a prototypical example of streaming data that can quickly scale beyond the cognitive power of a human analyst. As a prospective filter for the human analyst, we present an online unsupervised deep learning approach to detect anomalous network activity from system logs in real time. Our models decompose anomaly scores into the contributions of individual user behavior features for increased interpretability to aid analysts reviewing potential cases of insider threat. Using the CERT Insider Threat Dataset v6.2 and threat detection recall as our performance metric, our novel deep and recurrent neural network models outperform Principal Component Analysis, Support Vector Machine and Isolation Forest based anomaly detection baselines. For our best model, the events labeled as insider threat activity in our dataset had an average anomaly score in the 95.53 percentile, demonstrating our approach's potential to greatly reduce analyst workloads.

研究の動機と目的

高速かつ構造化されたストリーミングログにおける内部脅威の検出を動機づけ、対処する。
オンラインでの継続学習とリアルタイムでの動作を行う教師なし深層学習モデルを開発する。
スコアを寄与特徴に分解して解釈可能な異常説明を提供する。
合成データセットであるCERT Insider Threat v6.2を用いてモデルを評価し、ベースラインと比較する。

提案手法

カテゴリ属性と408個のアクティビティカウントを組み合わせ、1ユーザー1日あたり414次元の特徴ベクトルにシステムログを処理する。
ユーザー列の次のベクトルを予測する2つのニューラルアーキテクチャを実装する：DNN（Deep Neural Network）と、ユーザー間で共有パラメータを持つLSTM（Recurrent Neural Network）。
連続観測の次の値の結合確率を、カウントと6つのカテゴリ変数に対して因子分解したアプローチでモデル化し、連続特徴には対角共分散または単位行列を用いる。
オンライン学習として、単一の共有モデル内で各ユーザーの隠れ状態を更新し、無限に履歴を保存することなくリアルタイムの異常スコアリングを実現する。
異常スコアを個々の特徴の寄与から分解し、フラグ付きイベントの解釈を人間の分析者が支援できるようにする。

実験結果

リサーチクエスチョン

RQ1オンラインの教師なしDNN/LSTMモデルは、ストリーミングで構造化されたサイバーセキュリティデータにおいて内部脅威を効果的に検出できるか。
RQ2この設定で対角共分散を取り入れることは、共分散を単位行列とする場合より異常検出性能を向上させるか。
RQ3次ステップ予測と同時ステップ予測のいずれが、異常なユーザー活動を識別するのにより効果的か。
RQ4CERT v6.2データセット上で、伝統的なベースライン（PCA、SVM、Isolation Forest）と深層学習モデルを比較するとどうか。
RQ5異常スコアはアナリストが調査の優先順位を決めるのに十分解釈可能か。

主な発見

DNN-DiagとLSTM-DiagはPCA、SVM、Isolation Forestのベースラインより累積リコール指標で優れている（CR-400/CR-1000値：LSTM-Diagは11.6/35.6、DNN-Diagは11.7/35.7、表5）。
連続特徴に対しては、対角共分散が一般に同一分散（Identity）共分散よりも性能が良い。
同時ステップ予測は、このデータセットにおいてDNNおよびLSTMモデルともに次時予測よりわずかに優れている。
Isolation Forestは従来手法の中で強力なベースラインであるが、DNN-DiagとLSTM-Diagは与えられた予算でより高いリコールを達成する。
日次アナリスト予算が425の場合、DNN-DiagまたはLSTM-Diagモデルはテストセットで100%のリコールを達成する；約250で90%のリコールを達成できる（実験の詳細参照）。
悪意のある（内部関係者の脅威）ユーザーデーの異常スコアは、バーンイン期間後に第95パーセンileを超える傾向があり、脅威イベントの効果的な分離を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。