QUICK REVIEW

[論文レビュー] Anomaly Detection in Log Data using Graph Databases and Machine Learning to Defend Advanced Persistent Threats

Timo Schindler|arXiv (Cornell University)|Jan 1, 2017

Network Security and Intrusion Detection被引用数 12

ひとこと要約

本論文は、攻撃キルチェーンをモデル化し、ログイベントのシーケンスを分析することで、Advanced Persistent Threats (APTs) を検出するためのグラフデータベースおよび機械学習フレームワークを提案する。時系列ログ処理とサポートベクターマシンで強化された有向グラフモデルを組み合わせることで、高速かつ高精度な異常検出を実現し、シミュレートされた APT の有効な特定を示している。検出時間の短縮に加え、攻撃者パスや損傷を受けるシステムの特定も可能である。

ABSTRACT

Advanced Persistent Threats (APTs) are a main impendence in cyber security of computer networks. In 2015, a successful breach remains undetected 146 days on average, reported by [Fi16].With our work we demonstrate a feasible and fast way to analyse real world log data to detect breaches or breach attempts. By adapting well-known kill chain mechanisms and a combine of a time series database and an abstracted graph approach, it is possible to create flexible attack profiles. Using this approach, it can be demonstrated that the graph analysis successfully detects simulated attacks by analysing the log data of a simulated computer network. Considering another source for log data, the framework is capable to deliver sufficient performance for analysing real-world data in short time. By using the computing power of the graph database it is possible to identify the attacker and furthermore it is feasible to detect other affected system components. We believe to significantly reduce the detection time of breaches with this approach and react fast to new attack vectors.

研究の動機と目的

Fireeye が報告したように、2015 年の APT 攻撃の平均検出までの期間が 146 日にのぼるという、長期間にわたる検出不能な APT 攻撃の深刻な問題に対処すること。
グラフデータベースと機械学習を用いて、実世界のログデータにおいてスケーラブルで、効率的かつプライバシー準拠のソリューションを構築すること。
攻撃キルチェーンを抽象化されたイベントシーケンスを有する有向グラフとしてモデル化することで、複雑で多段階にわたる攻撃の検出を可能にすること。
ドイツの個人情報保護法（§3a BDSG）に準拠するため、検出精度を損なわず、偽名化されたデータ処理を可能にする。
シミュレーションおよび実世界のデータ処理を通じて、フレームワークの多様なログソースおよび攻撃ベクトルへの適応可能性を実証すること。

提案手法

フレームワークは、偵察、配信、利用、情報漏洩などの段階を含む、変更されたキルチェーンモデルを有向グラフとして用いて APT の段階を表現する。
生のログイベントは時系列データベースに順序付けられて保存され、グラフデータベースの中間層の抽象化されたイベントシーケンスにマッピングされる。
抽象化レイヤーにより、関連するログイベントを高レベルのシーケンスにグループ化することで、発生し得る多様な攻撃パターンやループ構造の柔軟な検出が可能になる。
正例（正常）と負例（悪意ある）のラベル付きログデータを用いてサポートベクターマシン（SVMs）を学習させ、攻撃パターンの分類と異常検出を実施する。
複数のソースからの異種ログデータを正規化・拡張することで、一貫性を確保し、検出精度を向上させる。
既存の SIEM システムと統合され、グラフデータベースのクエリ機能を活用して、攻撃の兆候の効率的な走査と相関分析が可能になる。

実験結果

リサーチクエスチョン

RQ1ログイベントのシーケンスを用いて、グラフベースのモデルが多段階 APT 攻撃パターンを効果的に表現・検出できるか？
RQ2時系列ログ処理とグラフデータベース技術を組み合わせることで、APT の検出速度と精度がどのように向上するか？
RQ3シミュレートされたおよび実世界の攻撃シナリオで学習された機械学習モデル、特に SVM は、ログデータにおける異常をどの程度効果的に検出できるか？
RQ4データ保護規制に準拠するため、偽名化されたログデータを処理しても、フレームワークが高い検出精度を維持できるか？
RQ5本システムは、初期の侵害を特定するだけでなく、二次的な損傷を受けたシステムや攻撃者パスの特定にもどの程度効果的か？

主な発見

フレームワークは、グラフベースのキルチェーンモデルを用いてログイベントを相関させることで、制御環境下でシミュレートされた APT 攻撃を成功裏に検出しており、高い検出精度を示した。
グラフデータベースのクエリを活用することで、攻撃者の行動を効率的に追跡し、損傷を受けたシステムを特定でき、迅速なインcidnet 対応が可能になった。
従来のシグネチャベース手法と比較して、APT の検出時間を短縮するアプローチを実現し、攻撃段階の特定がより速やかに行えることが結果として示された。
最適化されたグラフクエリ実行のおかげで、大規模なログデータを短時間で処理できる十分な性能を達成し、実世界のログデータ分析に適した性能を示した。
イベントシーケンスの抽象化と SVM の統合により、未確認の攻撃変種に対しても異常検出の精度が向上した。
偽名化されたデータを処理しても検出精度を維持したため、ドイツの個人情報保護法（§3a BDSG）に準拠していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。