Skip to main content
QUICK REVIEW

[論文レビュー] Robust machine learning by median-of-means : theory and practice

Guillaume Lecué, Matthieu Lerasle|arXiv (Cornell University)|Nov 28, 2017
Advanced Statistical Methods and Models参考文献 46被引用数 102
ひとこと要約

この論文は、最小限の仮定のもとで、破損したデータに対しても最適な収束速度を達成するロバストな機械学習のための中央値の平均(MOM)推定器を導入する。この手法は、標準的な経験的リスク最小化(ERM)の代わりにMOMに基づく推定を採用し、理論的保証、計算効率、および外れ値と収束速度の観点からロバスト性を定量化する非漸近的崩壊数を提供する。

ABSTRACT

We introduce new estimators for robust machine learning based on median-of-means (MOM) estimators of the mean of real valued random variables. These estimators achieve optimal rates of convergence under minimal assumptions on the dataset. The dataset may also have been corrupted by outliers on which no assumption is granted. We also analyze these new estimators with standard tools from robust statistics. In particular, we revisit the concept of breakdown point. We modify the original definition by studying the number of outliers that a dataset can contain without deteriorating the estimation properties of a given estimator. This new notion of breakdown number, that takes into account the statistical performances of the estimators, is non-asymptotic in nature and adapted for machine learning purposes. We proved that the breakdown number of our estimator is of the order of (number of observations)*(rate of convergence). For instance, the breakdown number of our estimators for the problem of estimation of a d-dimensional vector with a noise variance sigma^2 is sigma^2d and it becomes sigma^2 s log(d/s) when this vector has only s non-zero component. Beyond this breakdown point, we proved that the rate of convergence achieved by our estimator is (number of outliers) divided by (number of observation). Besides these theoretical guarantees, the major improvement brought by these new estimators is that they are easily computable in practice. In fact, basically any algorithm used to approximate the standard Empirical Risk Minimizer (or its regularized versions) has a robust version approximating our estimators. As a proof of concept, we study many algorithms for the classical LASSO estimator. A byproduct of the MOM algorithms is a measure of depth of data that can be used to detect outliers.

研究の動機と目的

  • 重い尾を持つデータや破損したデータを含む最小限の仮定のもとで、最適な収束速度を維持するロバストな機械学習推定器を開発すること。
  • 統計的性能と外れ値耐性の関係を明確にする非漸近的崩壊数を導入することで、機械学習におけるロバスト性を再定義すること。
  • 特に大規模かつ分散型のデータセットに対して、標準的な経験的リスク最小化器の計算効率の高い代替手段を提供すること。
  • 推定プロセスそのものから外れ値検出を副産物として得られることで、ロバスト推定と異常検出の両方を同時に解決すること。

提案手法

  • 標準的な経験的リスク最小化(ERM)の代替として、平均に基づく推定を中央値の局所平均の中央値に置き換える中央値の平均(MOM)推定器を提案する。
  • データセットをK個のランダムなブロックに分割し、各ブロック内で局所的経験的平均を計算した後、これらのブロック平均の中央値をとることで最終的な推定器を構築する。
  • データに依存するブロック選択ルールを用いてKを適応的に選択し、ロバスト性と最適な収束速度を保証する。
  • 古典的手法(例:LASSO)にMOMフレームワークを適用し、元の手法よりも高速でメモリ効率の良いロバストなMOM-LASSOを構築する。
  • 崩壊点の概念を再考し、「崩壊数」を導入する——これは収束速度が劣化し始めるまでの外れ値の最大数を表す。
  • 濃縮不等式と経験過程理論を用いて、弱いモーメント仮定のもとで非漸近的リスクバウンドを導出する。

実験結果

リサーチクエスチョン

  • RQ1外れ値や重い尾を持つデータに対しても、MOM推定器は最小限の仮定のもとで最適な収束速度を達成できるか?
  • RQ2古典的な漸近的崩壊点に依存せず、性能指向の非漸近的アプローチでロバスト性を定量化することは可能か?
  • RQ3ロバスト推定器は大規模データセット、特に分散環境においても計算的に効率的かつスケーラブルか?
  • RQ4MOMフレームワークは、LASSOのような標準的な機械学習アルゴリズムにどの程度適用可能であり、実用的改善をもたらすか?
  • RQ5MOM推定プロセス自体が外れ値検出のためのデータの深さ(データデプス)の指標を提供できるか?

主な発見

  • MOM推定器の崩壊数は、N × rN のオーダーであり、rN は収束速度を表す。これは、d次元推定において最大σ²d個の外れ値を耐えられるということを意味する。
  • スパースなベクトル(s個の非ゼロ成分)に対しては、崩壊数はσ²s log(ed/s) に比例し、スパarsityに伴いロバスト性が向上することが示される。
  • 外れ値の数が崩壊数未満であれば、推定器は最適な収束速度 rN ∼ K/N を達成する。
  • 外れ値の数が崩壊数を超えると、推定誤差は外れ値の割合に比例して線形に増加する。
  • MOM版LASSOは元の手法よりも高速で、メモリ使用量も少なく、外れ値検出のためのデータデプス指標を自然に提供する。
  • 理論的保証は弱い仮定のもとで成立する:情報の多いデータと真の分布との間でL2モーメントの同等性が成り立てば十分であり、サブガウス性や独立性は不要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。