QUICK REVIEW

[論文レビュー] Greenhouse: A Zero-Positive Machine Learning System for Time-Series Anomaly Detection

Tae J. Lee, Justin Gottschlich|arXiv (Cornell University)|Jan 9, 2018

Anomaly Detection Techniques and Applications参考文献 13被引用数 31

ひとこと要約

Greenhouseは、トレーニング中にラベル付き異常データを一切必要としない、LSTMベースのゼロポジティブな時系列データ異常検出システムを提案する。多変量誤差モデル化とマハラノビス距離のしきい値を活用することで、LSTM-ADが要するデータの25%程度のトレーニングデータで、Twitter_AAPLで0.49の高い精度を達成し、異常が稀でラベル付けが難しい実世界のIoTアプリケーションにおいて優れた実用性を示している。

ABSTRACT

This short paper describes our ongoing research on Greenhouse - a zero-positive machine learning system for time-series anomaly detection.

研究の動機と目的

トレーニング中にラベル付き異常サンプルを必要としない時系列異常検出システムの開発。これは、IoT環境において稀でラベル付けが難しい異常という実用的課題に対処することを目的とする。
ディープラーニング（LSTM）と確率的モデリングを組み合わせることで、高スケーラビリティを持つ、高容量の時系列データにおける堅牢な異常検出を実現すること。
動的環境において継続的な推論とフィードバック統合が可能な、リアルタイムで動作するオンラインシステムへのフレームワークの拡張。
範囲ベースの異常検出と分散型IoT展開をサポートし、異種システム間での広範な適用性を実現すること。
時系列データ分析パイプラインへの効率的統合を可能とする、データ管理とハイパフォーマンスコンピューティングの統合最適化。

提案手法

システムはスライディングウィンドウアプローチを用い、正常な時系列データでトレーニングされたLSTMモデルで将来の値を予測する。
各時刻において、予測値と実際の値の差分として、長さFの前方ウィンドウにおける誤差ベクトルを計算する。
誤差ベクトルは多変量正規分布でモデル化され、通常の挙動からの逸脱を検出するためにマハラノビス距離が計算される。
異常しきい値τは、マハラノビス距離を切り捨て正規分布にフィットさせ、ユーザー指定の百分位数における逆累積分布関数（CDF）を用いて決定される。
推論フェーズでは、トレーニング済みモデルを新規データに適用し、τを超えるマハラノビス距離を持つ点を異常とラベル付けする。
フレームワークはオンライン推論と強化学習によるフィードバック統合をサポートしており、時系列データ管理システムへの統合が設計されている。

実験結果

リサーチクエスチョン

RQ1ラベル付き異常例を一切必要としない場合、どのようにして時系列データにおける異常検出を効果的に行えるか？
RQ2正常データのみでトレーニングされたディープラーニングモデルは、正常および異常データを必要とするモデルと比較して、競争力のある異常検出性能を達成できるか？
RQ3誤差モデリングとマハラノビス距離をどのように組み合わせることで、原理的かつ一貫性のある方法で点異常および範囲異常を検出できるか？
RQ4既存の手法と比較して著しく少ないデータでトレーニングした場合の、性能と精度のトレードオフは何か？
RQ5分散型IoT環境において、リアルタイムでストリーミング推論とフィードバック駆動の適応が可能なように、システムをどのように拡張できるか？

主な発見

Greenhouseは、Twitter_AAPLデータセットで0.49の精度を達成し、LSTM-ADの0.22を大きく上回った。これは、トレーニングデータをLSTM-ADの25%にまで削減したにもかかわらず実現された。
nyc_taxiデータセットでは、Greenhouseは0.58の高い再現率を維持し、LSTM-ADの0.82に近く、F1スコアも0.35（LSTM-ADは0.40）と同等の水準を示した。
ゼロポジティブ学習が実現可能で効果的であることが実証された。異常サンプルの収集やラベル付けの負担が不要となった。
Greenhouseは誤差ベクトルに対するマハラノビス距離の使用により、限られたトレーニングデータと異常事例の露出なしでも、堅牢な異常検出が可能であることを示した。
予備的な結果から、フレームワークはオンラインストリーミング推論とフィードバックベースの学習への拡張が可能であることが示され、リアルタイム展開を支援できる。
システムの設計は、ハイパフォーマンスコンピューティングと時系列データ管理システムへの統合をサポートしており、効率的かつスケーラブルな展開を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。