QUICK REVIEW

[論文レビュー] Near-Optimal Entrywise Anomaly Detection for Low-Rank Matrices with Sub-Exponential Noise

Vivek F. Farias, Andrew A. Li|arXiv (Cornell University)|Jun 23, 2020

Sparse and Compressive Sensing Techniques参考文献 38被引用数 1

ひとこと要約

本稿は、低ランク行列における部分的・外れ値的ノイズの下で、エントリごとの異常検出法を提案する。この手法は、欠損値と異常値の両方を扱えるように、エントリごとの行列補完の保証を拡張する。最小最大最適な検出率（対数要因を除いて）を達成し、実際の小売データにおいて最先端の手法を上回る性能を示す。

ABSTRACT

We study the problem of identifying anomalies in a low-rank matrix observed with sub-exponential noise, motivated by applications in retail and inventory management. State of the art approaches to anomaly detection in low-rank matrices apparently fall short, since they require that non-anomalous entries be observed with vanishingly small noise (which is not the case in our problem, and indeed in many applications). So motivated, we propose a conceptually simple entrywise approach to anomaly detection in low-rank matrices. Our approach accommodates a general class of probabilistic anomaly models. We extend recent work on entrywise error guarantees for matrix completion, establishing such guarantees for sub-exponential matrices, where in addition to missing entries, a fraction of entries are corrupted by (an also unknown) anomaly model. Viewing the anomaly detection as a classification task, to the best of our knowledge, we are the first to achieve the min-max optimal detection rate (up to log factors). Using data from a massive consumer goods retailer, we show that our approach provides significant improvements over incumbent approaches to anomaly detection.

研究の動機と目的

非異常エントリのノイズが非常に小さくなる必要があるという、従来の低ランク行列異常検出手法の限界を是正すること。これは現実の応用では現実的ではない。
一般の確率的異常モデルを扱える、耐性のあるエントリごとの異常検出フレームワークの開発。
欠損値と汚染されたエントリを含む状況下で、部分的・外れ値的ノイズの下での行列補完のエントリごとの誤差保証の確立。
対数要因を除いて、最小最大最適な検出率を達成すること。
大手消費財小売業者から得た実世界データを用いて、手法の優位性を検証すること。

提案手法

異常検出を分類タスクとしてモデル化し、各行列エントリを異常状態の候補として扱う。
最近の部分的誤差境界を、サブガウス型からサブ指数型ノイズ分布へと拡張し、より重い尾部を持つノイズに対しても耐性を発揮する。
欠損データと未知の異常汚染を同時に考慮した正則化最適化問題を解くことで、低ランク構造と異常エントリを同時に推定する。
多様な種類の異常をモデル化できる一般クラスの確率的異常モデルを組み込む。
サブ指数型確率変数に特化した集中不等式を用いて理論的保証を導出し、弱い仮定のもとで信頼性の高い誤差境界を保証する。
計算効率が良く、大規模な行列にもスケーラブルなアルゴリズム設計であり、実世界の在庫・小売データに適している。

実験結果

リサーチクエスチョン

RQ1低ランク行列におけるエントリごとの異常検出は、サブ指数型ノイズ下で最適な検出率を達成できるか？
RQ2欠損値と異常値を含む行列補完において、サブガウス型からサブ指数型ノイズモデルへとエントリごとの誤差保証をどのように拡張できるか？
RQ3非理想的なノイズ条件下の実世界設定において、提案手法は既存手法を上回るか？
RQ4低ランク行列におけるサブ指数型ノイズ下のエントリごとの異常検出の理論的限界は何か？
RQ5非定常エントリが非消えるサブ指数型ノイズで汚染されている状況でも、欠損値と未知の異常汚染を同時に処理しながら最適性を維持できるか？

主な発見

提案手法は、低ランク行列におけるエントリごとの異常検出について、対数要因を除いて最小最大最適な検出率を達成する。
サブ指数型ノイズ下でのエントリごとの誤差保証が確立され、従来のサブガウス型ノイズに限定された結果を拡張する。
大手消費財小売業者から得た実データにおいて、現在の最先端手法を著しく上回り、実用的優位性を示す。
一般クラスの確率的異常モデルを効果的に扱えるため、多様な実世界シナリオへの応用可能性が向上する。
非異常エントリが非消えるサブ指数型ノイズで汚染されている状況でも、強い理論的保証を維持する。これは従来手法の限界である。
実験的結果から、ノイズが重い尾部を持ち、異常値がスパースな現実的状況でも、本手法が頑健で効果的であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。