Skip to main content
QUICK REVIEW

[論文レビュー] Real-Time Anomaly Detection for Streaming Analytics

Subutai Ahmad, Scott Purdy|arXiv (Cornell University)|Jul 8, 2016
Anomaly Detection Techniques and Applications参考文献 24被引用数 77
ひとこと要約

本論文では、ストリーミング時系列データにおける空間的および時間的異常をリアルタイムで検出するための階層的時系列記憶(HTM)に基づく異常検知システムを提示する。この手法はデータから継続的に学習し、変化する統計的特性に適応可能であり、NABベンチマークにおいて最先端の性能を達成し、誤検出が少なく、微細な行動の変化を早期に検出できる。

ABSTRACT

Much of the worlds data is streaming, time-series data, where anomalies give significant information in critical situations. Yet detecting anomalies in streaming data is a difficult task, requiring detectors to process data in real-time, and learn while simultaneously making predictions. We present a novel anomaly detection technique based on an on-line sequence memory algorithm called Hierarchical Temporal Memory (HTM). We show results from a live application that detects anomalies in financial metrics in real-time. We also test the algorithm on NAB, a published benchmark for real-time anomaly detection, where our algorithm achieves best-in-class results.

研究の動機と目的

  • 従来のバッチ処理や教師あり手法が非定常性やラベルの欠如のため失敗する、リアルタイムのストリーミングデータにおける異常検知の課題に対処すること。
  • オンライン学習が可能でリアルタイム予測が行える、非教師ありで適応可能な異常検知システムの開発。
  • 空間的異常(範囲外の値)に加え、重大な故障の前兆となる異常な行動の系列(時間的異常)の両方を検出すること。
  • 最小限のハイパーパrameterチューニングで実世界のストリーミングデータに対して高い性能を発揮し、ノイズに強く、耐障害性を有すること。
  • 金融監視における実用的導入を示し、NABデータセット上で既存手法と比較すること。

提案手法

  • 本システムは、生物学的にインspiredされたオンラインシーケンス記憶アルゴリズムである階層的時系列記憶(HTM)を用い、ストリーミング時系列データ内の時間的パターンをモデル化する。
  • 異常検知は、学習済みの時間的モデル下での各入力データポイントの確率を計算することで実施する;低い確率は異常を示す。
  • 誤検出率を制御するための確率的定式化を採用しており、ユーザーがアプリケーションのニーズに応じて感度を調整可能である。
  • 再トレーニングやバッチ処理を必要とせず、逐次的にモデルを更新することで、変化するデータ統計に継続的に適応する。
  • 大規模システム向けに、時間窓を用いた複数の独立したモデルをサポートし、多様なデータストリームを処理可能である。
  • 原始的なメトリクス値に固定分布を仮定するのではなく、異常スコアを確率的にモデル化することで、非ガウス分布データに対する耐性が向上する。

実験結果

リサーチクエスチョン

  • RQ1オンラインで非教師あり学習が可能なアルゴリズムは、最小限のチューニングでリアルタイムのストリーミングデータにおいて空間的および時間的異常を検出可能か?
  • RQ2HTMベースの異常検知は、実世界のストリーミングベンチマークにおいて、確立された統計的および機械学習手法と比較してどの程度の性能を示すか?
  • RQ3時間的モデリングにより、純粋に空間的アプローチに比べて、異常をどの程度早期に検出可能になるか?
  • RQ4継続的学習は、非定常データ環境における検知精度をどのように向上させるか?
  • RQ5生産環境用データにおいて、微細で初期兆候の異常を検出しつつ、誤検出率を低く維持できるか?

主な発見

  • HTMベースの検出器はNABベンチマークで最良クラスの性能を達成し、複数の指標においてSkyline、Twitter ADVec、ベイジアン変化点検出を上回った。
  • 機械の温度データにおいて、他の手法より3時間も早く微細な時間的異常を検出できた。これは、故障の早期予測にとって極めて重要である。
  • CPU使用率の持続的変化において、HTMとSkylineは新しい正常状態に適応したが、Twitter ADVecは数日間にわたり誤検出を継続した。
  • 空間的検出器では見逃された深刻な異常を検出でき、これは時間的モデリングの価値を示している。
  • 原始値に固定分布を仮定するのではなく、異常スコアを確率的にモデル化することで、ノイズが多く非ガウス分布のデータに対しても耐性を示した。
  • アルゴリズムは最小限のパrameterチューニングで、標準のラップトップ上で1レコードあたり約8msの高速処理を実現し、計算効率が優れていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。