[論文レビュー] Unsupervised anomaly detection algorithms on real-world data: how many do we need?
本論文は52の実世界の多変量データセットに対して32の教師なし異常検知アルゴリズムをベンチマークし、局所異常ではkNNが優位、グローバル異常ではEIFが優位であり、全体として3アルゴリズムのツールボックスで十分であることを示している。
In this study we evaluate 32 unsupervised anomaly detection algorithms on 52 real-world multivariate tabular datasets, performing the largest comparison of unsupervised anomaly detection algorithms to date. On this collection of datasets, the $k$-thNN (distance to the $k$-nearest neighbor) algorithm significantly outperforms the most other algorithms. Visualizing and then clustering the relative performance of the considered algorithms on all datasets, we identify two clear clusters: one with ``local'' datasets, and another with ``global'' datasets. ``Local'' anomalies occupy a region with low density when compared to nearby samples, while ``global'' occupy an overall low density region in the feature space. On the local datasets the $k$NN ($k$-nearest neighbor) algorithm comes out on top. On the global datasets, the EIF (extended isolation forest) algorithm performs the best. Also taking into consideration the algorithms' computational complexity, a toolbox with these three unsupervised anomaly detection algorithms suffices for finding anomalies in this representative collection of multivariate datasets. By providing access to code and datasets, our study can be easily reproduced and extended with more algorithms and/or datasets.
研究の動機と目的
- 実世界の多変量データに対する大規模な教師なし異常検知アルゴリズムの性能を評価する。
- 局所的な異常とグローバルな異常という異なるデータセットタイプがアルゴリズムの性能に影響を与えるかを特定する。
- 実世界の設定でのコンパクトで効果的な異常検知ツールボックスに関する実用的な指針を提供する。
- 精度と効率のバランスを取るための計算上の考慮事項を評価する。
- コードとデータセットを共有することで再現性を確保する。
提案手法
- 主にPyOD由来の32個の異常検知アルゴリズムを、52の実世界の多変量データセットに対して評価する。
- 各データセットについて、各アルゴリズムを妥当なハイパーパラメータの範囲で実行し、ROC-AUCスコアを平均化する。
- 重複を削除し、中心化し、四分位範囲でスケーリングして異常感度を低減することでデータを前処理する。
- ROC-AUCを主要評価指標として用い、データセットごとのアルゴリズム性能のランキングを算出する。
- Iman-Davenport検定を適用して全体的な差を検出し、続いてNemenyi事後検定でペア間有意性を特定する。
- 完全な再現性を可能にするため、コードとデータを含む公開GitHubリポジトリを提供する。

実験結果
リサーチクエスチョン
- RQ1実世界の多変量表形式データで最も性能の高い教師なし異常検知アルゴリズムはどれか。
- RQ2局所的かグローバルな異常を示すデータセットかどうかでアルゴリズムの性能は異なるか。
- RQ3代表的なデータセットのコーパス全体で、少数かつ実用的なアルゴリズムツールボックスは効果的に異常を特定できるか。
- RQ4計算上の考慮事項(複雑さ)は実務でのアルゴリズム選択にどう影響するか。
- RQ5ハイパーパラメータ最適化なしの教師なし異常検知に関する一般化可能な指針は何か。
主な発見
- 多くのアルゴリズムが比較的同等に機能し、データセットごとに中央値の性能が最良の約90%程度である。
- kth-NNおよびkNNの派生は一貫して多くのアルゴリズムを上回り、局所的な異常データセットで特に優勢であることが多い。
- Extended Isolation Forest (EIF) はグローバル異常データセットで最も強い性能を示す。
- CBLOFは多くの代替手法に常に劣っており、全体として最も弱い性能である。
- ニューラルネットワークベースの手法(DeepSVDD, ALAD, SO-GAAL)は、設計とハイパーパラメータの感度のため、表形式の実世界データでは性能が低い傾向にある。
- 二つのデータセットクラスターが現れる。局所異常クラスターでは局所法が卓越し、グローバル異常クラスターではより広範な手法のアンサンブルが最も良い性能を示す。
- kth-NN(またはkNNファミリ)、EIF、そして堅牢なグローバル検出器からなる3アルゴリズムのツールボックスは、検討対象のデータセットに対して精度と効率のバランスを取るのに十分である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。