Skip to main content
QUICK REVIEW

[論文レビュー] Outlier-robust moment-estimation via sum-of-squares

Pravesh K. Kothari, David Steurer|arXiv (Cornell University)|Nov 30, 2017
Blind Source Separation Techniques参考文献 2被引用数 27
ひとこと要約

本稿では、敵対的汚染下における高次元分布の低次のモーメントのロバスト推定のための、二乗和(sum-of-squares)に基づくアルゴリズムを提示する。この手法は、証明可能にサブガウスィアンな分布に対して、情報理論的最適な誤差境界を達成し、これまでの研究に比べて一般性と精度の両面で顕著な向上を果たす。さらに、強い理論的保証のもとでロバストな独立成分分析(ICA)とガウス混合モデルの学習を可能にする。

ABSTRACT

We develop efficient algorithms for estimating low-degree moments of unknown distributions in the presence of adversarial outliers. The guarantees of our algorithms improve in many cases significantly over the best previous ones, obtained in recent works of Diakonikolas et al, Lai et al, and Charikar et al. We also show that the guarantees of our algorithms match information-theoretic lower-bounds for the class of distributions we consider. These improved guarantees allow us to give improved algorithms for independent component analysis and learning mixtures of Gaussians in the presence of outliers. Our algorithms are based on a standard sum-of-squares relaxation of the following conceptually-simple optimization problem: Among all distributions whose moments are bounded in the same way as for the unknown distribution, find the one that is closest in statistical distance to the empirical distribution of the adversarially-corrupted sample.

研究の動機と目的

  • 最大ε分の標本が敵対的に汚染されている状況下で、未知の分布の低次のモーメントを計算的に効率よく推定するアルゴリズムの開発。
  • ガウス分布や有界な分散共分散行列を仮定する必要を軽減することで、先行研究のロバスト推定手法を改善すること。
  • 証明可能にサブガウスィアンな分布に対する推定誤差の情報理論的下界に一致させ、誤差スケーリングの最適性を達成すること。
  • 汚染下でも信頼性の高いモーメント推定を提供することで、高次元設定におけるモーメント法の応用をロバストに可能にすること。
  • 識別可能性の証明を効率的なアルゴリズムに変換することで、二乗和の枠組みをロバストパラメータ推定に拡張すること。

提案手法

  • モーメント推定を、制約付きの擬似分布上の凸最適化問題として定式化し、汚染済みの経験分布との統計的距離を最小化する。
  • 候補となるモーメントが、未知分布の真のモーメントが満たすのと同じ有界性を保証するために、二乗和の緩和を用いる。
  • 証明可能サブガウスィアン性に依存する:二乗和の証明によって示される多項式不等式を満たす分布。
  • 非凸問題の扱いを可能にするために、擬似期待値フレームワークを用い、半正定値計画法により効率的な計算を実現する。
  • 低次の二乗和証明を構築することで、推定されたモーメントが真のモーメントに近いかどうかを証明する。
  • 非ロバストなモーメント法アルゴリズムをブラックボックス的に変換するため、ロバストなモーメント推定器の出力を入力として用いる。

実験結果

リサーチクエスチョン

  • RQ1敵対的汚染下でも、情報理論的最適な誤差率を達成するロバストなモーメント推定アルゴリズムを設計できるか?
  • RQ2ガウス分布や有界スペクトルノルムといった強い分布仮定を排除しながらも、ロバスト性と効率性を維持できるか?
  • RQ3二乗和法を、識別可能性証明から一貫的にロバスト推定器を導出するための体系的枠組みとして用いることができるか?
  • RQ4ロバストなモーメント推定の誤差境界は、汚染率εの関数としてどのようにスケーリングされるか?また、既知の下界と一致するか?
  • RQ5ロバストなモーメント推定は、ICA やガウス混合学習といった高次元問題に対する新しいロバストなアルゴリズムを可能にするか?

主な発見

  • 提案手法は、証明可能にサブガウスィアンな分布に対して、情報理論的下界に定数倍の誤差で一致する推定誤差を達成する。
  • 平均推定では、誤差がΩ(√k ε^{1−1/k})にスケーリングされ、2つの分布が唯一k次のモーメントで異なることによる構成によって示された下界と一致する。
  • 共分散および高次モーメントについては、2次のモーメントでΩ(k ε^{1−2/k})、2r次のモーメントでΩ(k^r ε^{1−2r/k})にスケーリングされ、補題7.2における下界と一致する。
  • ガウス分布や積分布でない分布に対しても有効であり、従来の手法がそのような仮定を必要としていたのとは対照的である。
  • 元の変換が悪条件であっても、ロバストな独立成分分析(ICA)が可能である。これは、先行手法が失敗する領域である。
  • 非分離な平均を持つ多数の成分を含む球面ガウス混合分布に対しても、ロバスト性を達成し、従来の手法の制限を克服する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。