[論文レビュー] SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier Detection
SUODは、データ削減、モデル近似、バランスのとれた分散スケジューリングを組み合わせることにより、大規模で異種の教師なしアウトライヤ検出のモジュラー加速フレームワークを提案し、オープンソースとして公開します。
Outlier detection (OD) is a key machine learning (ML) task for identifying abnormal objects from general samples with numerous high-stake applications including fraud detection and intrusion detection. Due to the lack of ground truth labels, practitioners often have to build a large number of unsupervised, heterogeneous models (i.e., different algorithms with varying hyperparameters) for further combination and analysis, rather than relying on a single model. How to accelerate the training and scoring on new-coming samples by outlyingness (referred as prediction throughout the paper) with a large number of unsupervised, heterogeneous OD models? In this study, we propose a modular acceleration system, called SUOD, to address it. The proposed system focuses on three complementary acceleration aspects (data reduction for high-dimensional data, approximation for costly models, and taskload imbalance optimization for distributed environment), while maintaining performance accuracy. Extensive experiments on more than 20 benchmark datasets demonstrate SUOD's effectiveness in heterogeneous OD acceleration, along with a real-world deployment case on fraudulent claim analysis at IQVIA, a leading healthcare firm. We open-source SUOD for reproducibility and accessibility.
研究の動機と目的
- 単一モデルアプローチより堅牢性を向上させるため、異種の教師なしアウトライヤ検出器の使用を動機づける。
- データ、モデル、実行のボトルネックに対処するエンドツーエンドの加速フレームワークを開発する。
- 大規模で高次元のデータセットにおいて、トレーニングと推定時間を大幅に削減しつつ検出精度を維持する。
- 広範なベンチマークと実世界の不正検出展開を通じて有効性を示す。
提案手法
- Johnson-Lindenstraussのランダム射影を適用して、各ベースモデルの低次元サブスペースを作成し、対距離を保持し多様性を誘導する。
- 高コストな教師なし検出器を、トレーニングデータ上の検出器の出力などの準グラウンドトゥルースを用いて学習した高速な教師あり回帰器に置換する擬似監督付き近似を採用する。
- モデルコスト予測器を用いて実行時間を予測し、ワーカー間での均等な並列スケジューリングを可能にしてタスク負荷の不均衡を削減する。
実験結果
リサーチクエスチョン
- RQ1データレベルのランダム射影は、異種ODアンサンブルの次元削減を行いながら、アウトライヤに関連する構造を保持できるか?
- RQ2擬似監督付き近似は、精度の大幅な低下を招くことなく予測を高速化する上でどれだけ効果的か?
- RQ3予測されたバランスのとれたスケジューリングは、異なるmモデルとtワーカーにわたる分散型異種ODのトレーニング/予測効率を改善するか?
- RQ4データ削減、モデル近似、スケジューリングをSUODで組み合わせた場合の全体的な性能トレードオフは何か?
主な発見
- JL射影法によるデータ圧縮、特に circulant および toeplitz は、射影なしやPCAと比較して、ROCと精度指標が同等または改善されつつ、顕著な時間短縮をもたらす。
- 擬似監督型近似器は、コストの高いODモデルの予測を高速化でき、精度の低下はほとんどなく、場合によってはROCを改善する。
- モデルコスト予測器に導かれたバランスのとれた並列スケジューリングは、実行時間を短縮し、ワーカー間の負荷不均衡を緩和する。
- 完全なSUODシステムは、異種OD加速において総合的な効果を提供し、20を超えるベンチマークデータセットと実世界のIQVIA不正検出展開で検証された。
- SUODのオープンソース公開は再現性とPyODおよびscikit-learnスタイルAPIとの統合をサポートする。)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。