QUICK REVIEW

[論文レビュー] Efficient and fast estimation of the geometric median in Hilbert spaces with an averaged stochastic gradient algorithm

Hervé Cardot, Peggy Cénac|arXiv (Cornell University)|Jan 22, 2011

Statistical Methods and Inference参考文献 29被引用数 100

ひとこと要約

本稿では、ヒルバート空間における幾何学的中央値を推定するための、平均化された確率的勾配降下に基づく効率的なオンラインアルゴリズムを提案する。この手法により、高次元の関数データに対して高速かつ逐次的な計算が可能になる。本手法は確率的収束、$L^2$収束、漸近正規性を達成し、理論的保証と5,423本の曲線からなるテレビ視聴者データセットにおける実証的検証を兼ね備えている。

ABSTRACT

With the progress of measurement apparatus and the development of automatic sensors it is not unusual anymore to get thousands of samples of observations taking values in high dimension spaces such as functional spaces. In such large samples of high dimensional data, outlying curves may not be uncommon and even a few individuals may corrupt simple statistical indicators such as the mean trajectory. We focus here on the estimation of the geometric median which is a direct generalization of the real median and has nice robustness properties. The geometric median being defined as the minimizer of a simple convex functional that is differentiable everywhere when the distribution has no atoms, it is possible to estimate it with online gradient algorithms. Such algorithms are very fast and can deal with large samples. Furthermore they also can be simply updated when the data arrive sequentially. We state the almost sure consistency and the L2 rates of convergence of the stochastic gradient estimator as well as the asymptotic normality of its averaged version. We get that the asymptotic distribution of the averaged version of the algorithm is the same as the classic estimators which are based on the minimization of the empirical loss function. The performances of our averaged sequential estimator, both in terms of computation speed and accuracy of the estimations, are evaluated with a small simulation study. Our approach is also illustrated on a sample of more 5000 individual television audiences measured every second over a period of 24 hours.

研究の動機と目的

従来の平均ベースの手法が外れ値に敏感である高次元関数データにおけるロバストな中央値推定の課題に取り組む。
大規模またはストリーミングな関数データに適した、計算効率が高く、メモリ消費量が最小限の逐次的アルゴリズムを開発する。
ヒルバート空間における平均化された確率的勾配推定量の理論的収束特性——確率的一様収束、$L^2$レート、漸近正規性——を確立する。
完全なデータ保存と行列逆行列計算を要するバッチ法や反復法の代替としてスケーラブルな手法を提供する。特に高次元性が顕著な関数データにおいて顕著な利点を有する。

提案手法

原子測度を持たない仮定の下で、ヒルバート空間内での幾何学的中央値を凸かつ滑らかな汎関数の最小化問題として定式化する。
新規データが到着する度に逐次的に推定量を更新するため、減少するステップサイズを用いたオンライン確率的勾配降下法を適用する。
収束の改善と漸近正規性の達成を目的として、反復列の平均化機構を導入する。
マルティンゲール理論と関数的中心極限定理の議論を用いて、平均化推定量の漸近正規性を証明する。
アーベル変換と分解技術を活用して、平均化推定量の収束を分析し、誤差項を制御する。
ヒルバート空間におけるモーメント条件と大数の法則を用いて、推定誤差の期待ノルムをバインドすることで、確率的一様収束と$L^2$レートを確立する。

実験結果

リサーチクエスチョン

RQ1無限次元ヒルバート空間において、オンラインで逐次処理可能なアルゴリズムが幾何学的中央値の一貫的かつ効率的な推定を達成できるか？
RQ2幾何学的中央値の平均化された確率的勾配推定量は、古典的経験的最小化推定量と同一の漸近分布を達成するか？
RQ3提案手法の理論的収束レートおよび確率的一様収束特性は、高次元または関数データの設定においてどのように規定されるか？
RQ4大規模関数データにおいて、バッチ法や反復法と比較して、計算速度と精度の面で本手法はどのように性能を発揮するか？
RQ5本手法は、例えば個人のテレビ視聴時間の連続的時系列データのような実世界の高次元関数データに実用的に適用可能か？

主な発見

弱いモーメント条件および滑らかさ条件の下で、平均化された確率的勾配推定量は、任意の$\beta > 0$に対して$O(n^{-\frac{1}{2} + \frac{1}{2}\beta})$のレートで確率的一様収束し、$L^2$収束を達成する。
平均化推定量の漸近分布は正規分布であり、古典的経験的最小化推定量と同一の漸近分散を持つことが確認され、その効率性が裏付けられる。
各反復における計算複雑度は$O(nd)$であり、大規模なサンプルにスケーラブルで、ストリーミングデータ処理に適している。
各ステップで行列逆行列を必要とする従来の反復アルゴリズム（例：Gervini, 2008）に比べ、高次元では計算が非現実的であるが、本手法はその制約を回避する。
5,423本の個人視聴曲線（86,400次元）からなるデータセットにおける実証的結果から、本手法の高速性と外れ値に対するロバスト性が確認された。
理論的分析により、本アルゴリズムにおけるマルティンゲール差分列が一様有界であることが確認され、関数的中心極限定理の適用が可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。