[論文レビュー] Detecting Anomalous User Behavior Using an Extended Isolation Forest Algorithm: An Enterprise Case Study
本論文では、トレーニングデータにラベル付きの異常例を必要とせずに、企業環境における異常なユーザー行動を検出する拡張版の隔離フォレストアルゴリズムを提案する。カテゴリカル特徴を扱えるようにアルゴリズムを適合させ、複数の行動特徴を統合することで、時間的アクセスパターンを含めた場合に、異常なユーザー行動の同定において高い再現率(最大99.91%)を達成した。
Anomalous user behavior detection is the core component of many information security systems, such as intrusion detection, insider threat detection and authentication systems. Anomalous behavior will raise an alarm to the system administrator and can be further combined with other information to determine whether it constitutes an unauthorised or malicious use of a resource. This paper presents an anomalous user behaviour detection framework that applies an extended version of Isolation Forest algorithm. Our method is fast and scalable and does not require example anomalies in the training data set. We apply our method to an enterprise dataset. The experimental results show that the system is able to isolate anomalous instances from the baseline user model using a single feature or combined features.
研究の動機と目的
- トレーニング段階でラベル付きの異常例を必要としない、ユーザー行動の教師なし異常検出システムの開発。
- ユーザーアクセスログに一般的に見られるカテゴリカル特徴をサポートするように、隔離フォレストアルゴリズムを拡張すること。
- 実際の企業ログデータ上で、単一および複合特徴の異常検出効果を評価すること。
- 大規模な企業環境における個々のユーザーの正常行動と異常行動パターンを区別する能力を評価すること。
提案手法
- 企業ログファイルを解析・前処理し、一致ルール、シグネチャ、デバイス、ブラウザ、アクセス時間などのユーザー固有の行動特徴を抽出する。
- カテゴリカル特徴を数値表現に変換することで、カテゴリカル特徴をサポートする拡張版の隔離フォレストアルゴリズムを用いて、ベースラインユーザーモデルを構築する。
- トレーニングセット(ユーザーログの80%)に対して隔離フォレストを訓練し、正常行動をモデル化する隔離木を構築する。
- 新しいユーザー記録を訓練済みの隔離木にマッピングし、リーフノードへの平均パス長に基づいて異常スコアを計算する。
- 異常スコアがしきい値(0.80)を超える記録を、潜在的な異常とマークする。
- 10分割交差検証を10回のランダム実行で行い、真陽性、偽陽性、適合率、再現率、正答率を測定してシステムのパフォーマンスを評価する。
実験結果
リサーチクエスチョン
- RQ1トレーニングセットにラベル付きの異常例を必要としない拡張版隔離フォレストアルゴリズムは、企業ログデータにおける異常なユーザー行動を効果的に検出できるか?
- RQ2デバイス、ブラウザ、一致ルールなどのカテゴリカル特徴の組み込みが、異常検出システムの検出性能に与える影響は何か?
- RQ3複数の行動特徴を組み合わせることで、単一特徴を使用する場合と比較して、正常行動と異常行動の区別能力が向上するか?
- RQ4個々のユーザーに特有の異常行動と、他のユーザーの行動に類似した異常行動の両方を検出する能力は、システムにどの程度あるか?
- RQ5アクセス時間は、異常なユーザー行動パターンを同定する上でどの程度の役割を果たすか?
主な発見
- 単一特徴(デバイスチェック)を用いた場合、再現率が99.91%に達し、実際の異常行動の検出能が非常に高いことが示された。
- 4つの特徴を組み合わせたシステムでは、再現率99.02%、適合率51.43%を達成し、多様な行動パターンにおける効果的な検出が確認された。
- アクセス時間を特徴に組み込むことで検出性能が向上し、時間と他の4つの特徴を組み合わせたシステムでは再現率98.92%を達成した。
- すべてのシステムで偽陽性率が高く(94.03%から99.75%の範囲)、特に分散が小さい特徴では、多くの正常行動が誤って異常とマークされた。
- 偽陽性のヒストグラムから、495人のユーザーのうち258人が偽陽性を1件も持たず、122人がたった1件のみの偽陽性を示しており、大多数のユーザーが安定した行動パターンを示していることがわかった。
- 例として、ID 58376のユーザーは2件の記録で高い異常スコア(0.9307)を示し、特徴の変化に基づいて異常であると確認された。これは、システムが微細な行動のずれを検出できる能力を有していることを検証した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。