Skip to main content
QUICK REVIEW

[論文レビュー] Generalized Resilience and Robust Statistics

Banghua Zhu, Jiantao Jiao|arXiv (Cornell University)|Sep 19, 2019
Advanced Statistical Methods and Models参考文献 66被引用数 26
ひとこと要約

本稿は、全 Variation (TV) および Wasserstein (W₁) 腐敗の下でのロバスト統計のための包括的枠組みとして一般化されたレジリエンスを導入し、平均推定、線形回帰、2次モーメント推定に対して有限標本保証を可能にする。最小距離汎関数をレジリエント分布に射影する手法を提案し、誤差が連続性モジュラスによって上限付けられるが、一般化されたレジリエントクラスに対してはそのモジュラスを体系的に上界で抑えられ、モーメントまたはハイパーコントラクト型条件の下で明確な母集団および有限標本結果が得られる。

ABSTRACT

Robust statistics traditionally focuses on outliers, or perturbations in total variation distance. However, a dataset could be corrupted in many other ways, such as systematic measurement errors and missing covariates. We generalize the robust statistics approach to consider perturbations under any Wasserstein distance, and show that robust estimation is possible whenever a distribution's population statistics are robust under a certain family of friendly perturbations. This generalizes a property called resilience previously employed in the special case of mean estimation with outliers. We justify the generalized resilience property by showing that it holds under moment or hypercontractive conditions. Even in the total variation case, these subsume conditions in the literature for mean estimation, regression, and covariance estimation; the resulting analysis simplifies and sometimes improves these known results in both population limit and finite-sample rate. Our robust estimators are based on minimum distance (MD) functionals (Donoho and Liu, 1988), which project onto a set of distributions under a discrepancy related to the perturbation. We present two approaches for designing MD estimators with good finite-sample rates: weakening the discrepancy and expanding the set of distributions. We also present connections to Gao et al. (2019)'s recent analysis of generative adversarial networks for robust estimation.

研究の動機と目的

  • 従来のTVベースの外れ値モデルを超えて、測定誤差や共変数欠損といった体系的腐敗を含むロバスト統計の拡張。
  • TVおよびW₁腐敗モデルの両方において推定が可能であることを保証する新しい性質「一般化されたレジリエンス」を形式化すること。
  • これらの一般化された腐敗モデルの下で、主な統計推定量(平均、回帰、共分散、2次モーメント)の有限標本誤差境界を提供すること。
  • 最小距離汎関数の連続性モジュラスを体系的に上界で抑え、きめ細かい有限標本解析を可能にする手法の開発。
  • モーメントまたはハイパーコントラクト型条件の下で、先行研究のロバスト平均推定、線形回帰、および同時推定の結果を統一的かつ改善すること。

提案手法

  • TVまたはW₁腐敗の下でロバスト推定が可能であるような分布を特徴付ける一般化されたレジリエンス条件を提案。
  • 腐敗した標本分布を良好な分布の集合へ射影するロバスト推定量としての最小距離(MD)汎関数を導入。
  • MD汎関数の誤差を制御するための一般化された連続性モジュラスを用い、レジリエントクラスに対してそのモジュラスを体系的に上界で抑えられる手法を提案。
  • TV腐敗への応用において、高次元および複雑なモデルに対応するための弱化された距離計測(\widetilde{\mathsf{TV}}_{\mathcal{H}})を定義。
  • W₁腐敗への応用において、\widetilde{W}_1 射影を導入し、2次モーメントおよび線形回帰推定のためのレジリエント集合を構築。
  • ブリッジ関数と双対性の議論を用いて、ロバスト推定をロバスト最適化およびアグノスティック分布学習に結びつける。

実験結果

リサーチクエスチョン

  • RQ1データが全 Variation または Wasserstein 距離で腐敗している場合、どのような条件下でロバスト推定が可能となるか?
  • RQ2一般化されたレジリエンスは、異なる腐敗モデルおよび統計モデルの下でロバスト推定を統一する条件として機能できるか?
  • RQ3一般化されたレジリエンスの下で、平均推定、線形回帰、2次モーメント推定に対して達成可能な有限標本誤差境界は何か?
  • RQ4最小距離汎関数の連続性モジュラスを体系的に上界で抑え、きめ細かな有限標本保証を得るにはどうすればよいか?
  • RQ5W₁腐敗下でのロバスト線形回帰のための必要十分条件(例:モーメントまたはハイパーコントラクト型条件)は何か?

主な発見

  • TV腐敗の下では、有界なk次のモーメントを持つ平均推定、線形回帰、および平均と共分散の同時推定に対して、有限標本境界が改善された。
  • W₁腐敗の下では、モーメントまたはハイパーコントラクト型条件の下で、2次モーメント推定および線形回帰に対する初めての有限標本保証が得られた。
  • 一般化されたレジリエンス条件は、モーメントまたはハイパーコントラクト型条件の下で成立することが示され、高次元設定下でのロバスト推定が可能となった。
  • MD汎関数の連続性モジュラスは体系的な手法により上界で抑えられ、明確な母集団レベルの結果と強力な有限標本性能が得られた。
  • 一般化されたレジリエンス条件の下で、提案されたMD汎関数は、いくつかの状況で既知のミニマックス下界に一致する誤差率を達成した。
  • この枠組みにより、W₁に基づく線形回帰では回帰係数ベクトルの有界性が必要であることが明らかになり、ハイパーコントラクト型条件がロバスト性の十分条件であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。