[論文レビュー] Time Series Anomaly Detection: Detection of Anomalous Drops with Limited Features and Sparse Examples in Noisy Periodic Data
本稿では、限られたラベル付きデータを前提に、ノイズが多く周期的なトラフィック時系列データにおける持続的で異常な低下を検出するため、機械学習とルールベースのハイブリッド手法を提案する。TensorFlow を用いて DNN、RNN、LSTM を回帰用に学習させ、実測値と予測値の比較に基づく異常検出ルールを適用する。2つの検出手法の積集合が、全モデルにおいて顕著に高い有効性を示したが、周期的でないデータには予測が不可能であった。
Google uses continuous streams of data from industry partners in order to deliver accurate results to users. Unexpected drops in traffic can be an indication of an underlying issue and may be an early warning that remedial action may be necessary. Detecting such drops is non-trivial because streams are variable and noisy, with roughly regular spikes (in many different shapes) in traffic data. We investigated the question of whether or not we can predict anomalies in these data streams. Our goal is to utilize Machine Learning and statistical approaches to classify anomalous drops in periodic, but noisy, traffic patterns. Since we do not have a large body of labeled examples to directly apply supervised learning for anomaly classification, we approached the problem in two parts. First we used TensorFlow to train our various models including DNNs, RNNs, and LSTMs to perform regression and predict the expected value in the time series. Secondly we created anomaly detection rules that compared the actual values to predicted values. Since the problem requires finding sustained anomalies, rather than just short delays or momentary inactivity in the data, our two detection methods focused on continuous sections of activity rather than just single points. We tried multiple combinations of our models and rules and found that using the intersection of our two anomaly detection methods proved to be an effective method of detecting anomalies on almost all of our models. In the process we also found that not all data fell within our experimental assumptions, as one data stream had no periodicity, and therefore no time based model could predict it.
研究の動機と目的
- 限られたラベル付き例を前提に、ノイズが多く周期的なトラフィック時系列データストリームにおける持続的で異常な低下を検出する課題に対処すること。
- 実世界の産業用時系列データにおいて、ラベル付き異常データの不足により生じる教師あり学習の限界を克服すること。
- 一時的なスパイクやギャップではなく、期待されるパターンからの継続的で長い期間の逸脱を特定する、耐障害性の高い異常検出システムを開発すること。
- 複数のディープラーニングモデル(DNN、RNN、LSTM)が、異常検出のための期待値予測にどの程度有効に機能するかを評価すること。
- 実測値とモデル予測値の比較に基づくルールベース異常検出の性能を、多様なデータパターンにおいて評価すること。
提案手法
- TensorFlow を用いて、時系列回帰のための深層ニューラルネットワーク(DNN)、再帰的ニューラルネットワーク(RNN)、長短期記憶ネットワーク(LSTM)を学習させ、期待値を予測する。
- 実測値とモデル予測値を比較することで、乖離を特定するルールベースの異常検出を適用する。
- 個々のデータポイントではなく、連続的な活動セグメントに注目することで、持続的異常を特定する。
- 予測誤差に基づく検出と時間的連続性に基づく検出という2つの異常検出手法を、その積集合を用いて統合し、検出の信頼性を向上させる。
- 複数の構成とデータストリームにおいてモデルの性能を評価し、周期性を欠くデータストリーム1つも含む。
- 最終判断メカニズムとして、検出ルールの積集合を用い、誤検出を低減するとともに耐障害性を向上させる。
実験結果
リサーチクエスチョン
- RQ1限られたラベル付きデータを前提に、機械学習とルールベースのハイブリッド手法が、ノイズが多く周期的な時系列データにおける持続的で異常な低下を効果的に検出できるか。
- RQ2異なるディープラーニングアーキテクチャ(DNN、RNN、LSTM)は、産業用トラフィックデータにおける異常検出のための期待値予測にどの程度有効に機能するか。
- RQ3複数の異常検出ルールを統合することで、検出の正確性と信頼性がどの程度向上するか。
- RQ4時間ベースのモデルは、周期的でないデータストリームに適用した場合、どのような限界を示すか。
- RQ52つの検出手法の積集合は、真の異常を特定する際に、個々の手法を常に上回る性能を示すか。
主な発見
- 予測誤差に基づく検出と時間的連続性に基づく検出という2つの異常検出手法の積集合は、全テストモデルにおいて異常検出に顕著に有効であることが示された。
- TensorFlow で学習されたモデル(DNN、RNN、LSTM)は、大多数のデータストリームにおいて周期的パターンを的確に捉え、期待値の予測を正確に実行できた。
- 本手法は持続的異常を効果的に検出でき、一時的な低下や短期間の停止による誤検出を回避できた。
- 1つのデータストリームでは周期的でないことが判明し、時間ベースのモデルが予測に不適切であることが示され、本手法の主要な限界が浮き彫りになった。
- ハイブリッド手法は多様なデータ形状とノイズレベルにおいて耐障害性を示し、実世界の環境における優れた一般化可能性を示した。
- 実測値と予測値のルールベース比較は、広範なラベル付きデータを必要とせずに、意味のある乖離を信頼性高く特定する有効なメカニズムを提供した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。