Skip to main content
QUICK REVIEW

[論文レビュー] Incorporating Feedback into Tree-based Anomaly Detection

Shubhomoy Das, Weng‐Keen Wong|arXiv (Cornell University)|Aug 30, 2017
Anomaly Detection Techniques and Applications参考文献 2被引用数 43
ひとこと要約

本稿では、Isolation Forestに二値のアナリストフィードバックを統合することで、リアルタイムでの異常順位の最適化を可能にする新規手法IF-AADを提案する。木のノードをアンサンブル内の重み付きコンポonentとして扱い、フィードバックに基づいて再重み付けすることで、アナリストが手動で検査しなければならない誤検出の数を顕著に削減し、ベースラインのIsolation Forestと比較して、真の異常を最大2倍多く検出可能となる。

ABSTRACT

Anomaly detectors are often used to produce a ranked list of statistical anomalies, which are examined by human analysts in order to extract the actual anomalies of interest. Unfortunately, in realworld applications, this process can be exceedingly difficult for the analyst since a large fraction of high-ranking anomalies are false positives and not interesting from the application perspective. In this paper, we aim to make the analyst's job easier by allowing for analyst feedback during the investigation process. Ideally, the feedback influences the ranking of the anomaly detector in a way that reduces the number of false positives that must be examined before discovering the anomalies of interest. In particular, we introduce a novel technique for incorporating simple binary feedback into tree-based anomaly detectors. We focus on the Isolation Forest algorithm as a representative tree-based anomaly detector, and show that we can significantly improve its performance by incorporating feedback, when compared with the baseline algorithm that does not incorporate feedback. Our technique is simple and scales well as the size of the data increases, which makes it suitable for interactive discovery of anomalies in large datasets.

研究の動機と目的

  • 木ベースの異常検出におけるアルゴリズム的外れ値と人間が定義する異常との間の意味的不一致を解消すること。
  • 異常発見プロセス中にアナリストが手動で検査しなければならない誤検出の数を最小限に抑えることで、アナリストの負担を軽減すること。
  • リアルタイムのフィードバックを用いて異常順位を動的に適応させるスケーラブルでインタラクティブな手法を開発すること。
  • フィードバックをアンサンブル出力レベルだけでなく、ノードレベルにまで効果的に統合できるかを評価すること。
  • 内部ノードと葉ノードの両方の重み付けを組み込むことで、葉ノードのみの重み付けに比べて性能が向上することを示すこと。

提案手法

  • 本手法は、Isolation Forestの各ノードをアンサンブル内の重み付きコンポーネントとしてモデル化し、アナリストのフィードバックに基づいて重みを更新する。
  • 二値のフィードバック(真の異常または通常)を用いて、アクティブラーニングフレームワークによりノードの重みを再計算し、各ノードが最終的な異常スコアに与える寄与度を調整する。
  • アルゴリズムはノード重みの線形結合を用いて異常スコアを計算し、各インスタンスのパスに沿ったノードの重みがフィードバックによって影響を受ける。
  • フィードバックは反復的に統合される:各ラベル付け後、システムはノード重みを再評価し、真の異常を含む領域を優先し、誤検出を後回しにする。
  • 本手法は、個々の木のノードを調整可能なコンポーネントとして扱うことで、アクティブな異常発見(AAD)を木ベースの検出器に拡張する。
  • IF-AAD-Leafという変種では、重み付けを葉ノードに限定することで、内部ノードの重み付けの影響を比較可能にする。

実験結果

リサーチクエスチョン

  • RQ1アナリストのフィードバックを効果的に活用することで、木ベースの異常検出における真の異常の順位付けを改善できるか?
  • RQ2アンサンブルレベルだけでなくノードレベルにフィードバックを統合することで、異常発見の性能が向上するか?
  • RQ3内部ノードへの重み付けを組み込むことで、葉ノードのみの重み付けに比べて、フィードバック駆動型異常検出の性能にどのような影響を与えるか?
  • RQ4IF-AADは、真の異常の大部分を発見するまでの誤検出の検査数をどの程度削減できるか?
  • RQ5フィードバックメカニズムは、実世界のデータセットにおける特徴空間全体にわたるアルゴリズムの注目領域にどのように影響を与えるか?

主な発見

  • IF-AADは、8つのベンチマークデータセットにおいて、ベースラインのIsolation Forestを常に上回り、同じクエリ数で真の異常を最大2倍多く検出可能である。
  • 平均して、IF-AADは真の異常の90%を発見するまでのクエリ数を、ベースラインと比較して30〜50%削減する。
  • フィードバックメカニズムにより、以前に「通常」とラベル付けされた領域(例:Abaloneの(30,-50)領域、ANN-Thyroid-1v3の(60,-60)領域)への注目が著しく低下した。
  • t-SNE可視化により確認されたように、以前に「真の異常」とラベル付けされた領域(例:Abaloneの(-20,-20)領域、ANN-Thyroid-1v3の(0,-10)領域)への注目が、アルゴリズムによって強化された。
  • 葉ノードのみに重みを付けるIF-AAD-Leafは、IF-AADに比べてわずかに性能が劣っており、内部ノードの重み付けが性能向上に寄与していることが示唆されるが、主な利益は葉ノードレベルのフィードバックに起因する。
  • フィードバックの統合に要する時間は、ラベル付けされたインスタンス数に比例して線形に増加し、ANN-Thyroid-1v3データセットでは100件のラベル付けに約40秒を要する。これはスケーラビリティを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。