Skip to main content
QUICK REVIEW

[論文レビュー] Sub-Gaussian Mean Estimation in Polynomial Time

Samuel B. Hopkins|arXiv (Cornell University)|Sep 20, 2018
Machine Learning and Algorithms参考文献 16被引用数 22
ひとこと要約

この論文は、有限の平均と分散の仮定のみで、最初の多項式時間アルゴリズムを提示する。これは、高次元中央値の新しい半定値計画(SDP)緩和を用いて、サブガウスィアン平均推定を実現する。信頼区間のサイズがサブガウスィアンに近い性能を達成し、従来の手法が強いモーメント仮定を必要としたり、指数時間の計算を要したりするという限界を克服する。

ABSTRACT

We study polynomial time algorithms for estimating the mean of a heavy-tailed multivariate random vector. We assume only that the random vector $X$ has finite mean and covariance. In this setting, the radius of confidence intervals achieved by the empirical mean are large compared to the case that $X$ is Gaussian or sub-Gaussian. We offer the first polynomial time algorithm to estimate the mean with sub-Gaussian-size confidence intervals under such mild assumptions. Our algorithm is based on a new semidefinite programming relaxation of a high-dimensional median. Previous estimators which assumed only existence of finitely-many moments of $X$ either sacrifice sub-Gaussian performance or are only known to be computable via brute-force search procedures requiring time exponential in the dimension.

研究の動機と目的

  • 高次元の重たい尾を持つ分布における平均推定の計算効率の良いアルゴリズムの開発。
  • 有限の平均と分散の最小限の仮定のもとで、サブガウスィアンの信頼区間を達成すること。
  • 従来の推定器がブルートフォース探索や強いモーメント条件を必要としていた計算の非効率性を克服すること。
  • 重たい尾を持つデータが信頼区間の性能を著しく低下させる状況において、標本平均の実用的代替案を提供すること。

提案手法

  • アルゴリズムは、高次元中央値の新しい半定値計画(SDP)緩和を導入し、ロバストに平均を推定する。
  • SDP定式化により、多項式時間で効率的な計算が可能となり、従来の手法で用いられていた指数時間の探索手順を回避する。
  • 高次元における中央値の幾何的性質を活用することで、弱いモーメント条件のもとでもサブガウスィアンの集中を達成する。
  • 信頼区間の半径が、元の分布が重たい尾を持つ場合でも、サブガウスィアン分布と同程度にスケーリングされる。
  • 信頼区間のサイズの統計的最適性を維持しながら、計算の実行可能性を確保するように設計されている。
  • 高次モーメントに対してロバストであり、サブガウスィアンのパラメータの事前知識を必要としない。

実験結果

リサーチクエスチョン

  • RQ1有限の平均と分散の仮定のもとで、サブガウスィアンの信頼区間を達成することは可能か?
  • RQ2この問題に対して、指数時間の探索手順を避ける多項式時間のアルゴリズムを設計することは可能か?
  • RQ3高次元における中央値ベースの推定を、計算可能にするためにどのように緩和できるか?
  • RQ4重たい尾を持つ平均推定において、統計的効率性と計算複雑性のトレードオフは何か?
  • RQ5半定値計画の定式化は、高次元中央値推定のロバスト性を効果的に捉えることができるか?

主な発見

  • 提案されたアルゴリズムは、有限の平均と分散の仮定のもとで、ガウス分布推定器と同等の性能を示すサブガウスィアンサイズの信頼区間を達成する。
  • アルゴリズムは多項式時間で実行され、従来の中央値ベース推定器が指数時間の探索を要していた計算の非効率性を解消する。
  • SDP緩和により、計算の効率性が確保されるとともに、中央値型推定器の統計的ロバスト性が維持される。
  • 重たい尾を持つ分布のもとで、標本平均よりも信頼区間の半径が小さい。
  • 最小限のモーメント仮定のもとで、最適なサブガウスィアン集中を達成する最初の計算効率の良い推定器を提供する。
  • 高次モーメントに対してロバストであり、サブガウスィアンのパラメータの事前知識を必要としない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。