Skip to main content
QUICK REVIEW

[論文レビュー] RLAD: Time Series Anomaly Detection through Reinforcement Learning and Active Learning

Tong Wu, Jorge Ortiz|arXiv (Cornell University)|Mar 31, 2021
Anomaly Detection Techniques and Applications参考文献 34被引用数 23
ひとこと要約

RLADは、深層強化学習(DRL)とアクティブラーニングを組み合わせることで、最小限のラベルデータで最先端の性能を達成する、時間系列異常検出の新規な半教師ありフレームワークである。非ステーションナリティのデータに動的に適応でき、比較された非教師ありおよび半教師あり手法をすべて上回り、ラベルがたった0.1%の状況でも、最良の非教師ありベースライン比でF1スコアが最大4.4倍に向上する。

ABSTRACT

We introduce a new semi-supervised, time series anomaly detection algorithm that uses deep reinforcement learning (DRL) and active learning to efficiently learn and adapt to anomalies in real-world time series data. Our model - called RLAD - makes no assumption about the underlying mechanism that produces the observation sequence and continuously adapts the detection model based on experience with anomalous patterns. In addition, it requires no manual tuning of parameters and outperforms all state-of-art methods we compare with, both unsupervised and semi-supervised, across several figures of merit. More specifically, we outperform the best unsupervised approach by a factor of 1.58 on the F1 score, with only 1% of labels and up to around 4.4x on another real-world dataset with only 0.1% of labels. We compare RLAD with seven deep-learning based algorithms across two common anomaly detection datasets with up to around 3M data points and between 0.28% to 2.65% anomalies.We outperform all of them across several important performance metrics.

研究の動機と目的

  • 時間系列異常検出におけるラベルデータの限界に取り組むこと、特に非定常な現実世界の環境において。
  • 手動によるハイパーパramータチューニングやデータ分布に関する強い事前仮定への依存を軽減すること。
  • データとの相互作用と選択的ラベリングを通じて、時間経過とともに改善する動的で適応的なモデルを開発すること。
  • 最小限のラベリングで、既存の非教師ありおよび半教師ありディープラーニング手法を上回る異常検出の精度を達成すること。

提案手法

  • RLADは、ストリーミング時間系列設定において、最も情報量の多いサンプルをラベリング対象に選択するための深層Qネットワーク(DQN)エージェントを採用する。
  • アクティブラーニングを用いて、ラベル付けに必要な作業を最小限に抑えるために、最も不確実性が高く情報量の多いサンプルのみをクエリする。
  • ラベル伝搬を統合することで、ラベルありおよびラベルなしデータの両方を活用して予測を精緻化する。
  • F1スコアに基づく報酬関数を用いて、DRLエージェントが最適なラベリング意思決定を下すように導く。
  • 変分オートエンコーダからの再構成誤差と表現学習のための相互情報量最大化を組み合わせて、エンドツーエンドでモデルを訓練する。
  • エージェントは環境からのフィードバックに基づき、継続的に方策を適応させることで、コンセプトドリフトへの長期的適応を可能にする。

実験結果

リサーチクエスチョン

  • RQ1アクティブラーニングを組み合わせた深層強化学習は、効果的な時間系列異常検出に必要なラベル数を著しく削減できるか?
  • RQ2低ラベルレジーム下で、RLADは最先端の非教師ありおよび半教師あり異常検出手法と比べてどのように性能を発揮するか?
  • RQ3再トレーニングなしで、RLADは非定常なデータ分布にどの程度適応できるか?
  • RQ4DRLとアクティブラーニングの統合は、既存の手法と比較して収束が速く、一般化性能が優れていると期待できるか?

主な発見

  • A1Benchmarkデータセットでは、わずか1%のラベルデータで、RLADは最良の非教師あり手法(SPOT)よりもF1スコアが59%高い結果を達成した。
  • KPIデータセットでは、RLADはたった0.1%のラベルサンプルでF1スコア0.778を達成し、Deep-SAD(F1 = 0.128)を6倍以上上回った。
  • A2Benchmarkデータセットでは、1%のラベルでRLADは最良の非教師あり手法のF1スコアを1.58倍上回った。
  • KPIデータセットでは、RLADがたった300エピソードで収束し、訓練に必要なラベル数は1500(0.05%)および3000(0.1%)にとどまった。
  • Yahooデータセットでは、A1BenchmarkとA2Benchmarkの両方で、10%のラベルでそれぞれF1スコア0.8(A1Benchmark)および1.0(A2Benchmark)というほぼ完璧なスコアを達成した。
  • 実験全体を通じて、RLADはラベル数のわずか一部で、最先端の半教師あり手法であるDeep-SADのF1スコアを最大10倍上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。