QUICK REVIEW

[論文レビュー] Unbiased estimators for random design regression

Michał Dereziński, Manfred K. Warmuth|arXiv (Cornell University)|Jul 8, 2019

Soil Geostatistics and Mapping被引用数 4

ひとこと要約

本稿では、入力分布から決定論的点プロセス（DPP）を用いて非i.i.d.なサンプルを構築することにより、ランダム設計回帰における不偏最小二乗推定量を生成する、新しいボリュームスケーリング付きサンプリング手法を提案する。O(d log d + d/ϵ)個のサンプルで、推定量の期待損失が最適値の1+ϵ以内に収束することを証明し、大規模データセット向けに効率的なアルゴリズムを提供することで、ほぼ線形時間での計算とモデルアveragingに対する強い保証を実現する。

ABSTRACT

In linear regression we wish to estimate the optimum linear least squares predictor for a distribution over $d$-dimensional input points and real-valued responses, based on a small sample. Under standard random design analysis, where the sample is drawn i.i.d. from the input distribution, the least squares solution for that sample can be viewed as the natural estimator of the optimum. Unfortunately, this estimator almost always incurs an undesirable bias coming from the randomness of the input points, which is a significant bottleneck in model averaging. In this paper we show that it is possible to draw a non-i.i.d. sample of input points such that, regardless of the response model, the least squares solution is an unbiased estimator of the optimum. Moreover, this sample can be produced efficiently by augmenting a previously drawn i.i.d. sample with an additional set of $d$ points, drawn jointly according to a certain determinantal point process constructed from the input distribution rescaled by the squared volume spanned by the points. Motivated by this, we develop a theoretical framework for studying volume-rescaled sampling, and in the process prove a number of new matrix expectation identities. We use them to show that for any input distribution and $\epsilon>0$ there is a random design consisting of $O(d\log d+ d/\epsilon)$ points from which an unbiased estimator can be constructed whose expected square loss over the entire distribution is bounded by $1+\epsilon$ times the loss of the optimum. We provide efficient algorithms for generating such unbiased estimators in a number of practical settings and support our claims experimentally.

研究の動機と目的

標準的なi.i.d.サンプリングがバイアスを引き起こすため、ランダム設計回帰における不偏推定量の開発。
不偏性を保証しつつ、期待損失を最適値の小さな乗法的要因ϵ以内に抑えることによる、ほぼ最適な性能の達成。
特に大規模データセットにおいて、データサイズにほぼ線形な時間で不偏推定が可能な効率的なサンプリング機構の設計。
ボリュームスケーリング付きサンプリングの理論的枠組みの確立と、分析を支える新しい行列の期待値恒等式の導出。
不偏性と低い期待損失を保証する推定量の構築により、実用的なモデルアveragingと分散型学習を可能にする。

提案手法

入力分布から決定論的点プロセス（DPP）を用いて非i.i.d.サンプルを生成することで、最小二乗推定量の不偏性を保証するボリュームスケーリング付きサンプリングを用いる。
i.i.d.サンプルに、入力分布および点が張る体積の二乗に基づくDPPに従って同時に抽出されるd個の追加点を組み合わせることでサンプルを構築する。
行列の期待値恒等式を用いた理論的枠組みを導入し、ボリュームスケーリング付きサンプリング下での推定量の挙動を分析する。
サンプルサイズに関して多項式時間でDPPサンプリングを可能にする、歪みのない中間サンプリングと呼ばれる新しいアルゴリズム的技術を導入する。
入力分布の共分散行列を単位行列に変換することで、問題を標準形に還元し、分析を簡略化する。
2段階の解析を実施：1つ目はサンプル行列が強い固有値条件を満たす事象、2つ目はその条件を満たさない失敗事象であり、両状況における期待損失をそれぞれ上限で抑え込む。

実験結果

リサーチクエスチョン

RQ1ガウスノイズの仮定やi.i.d.サンプリングの仮定なしに、ランダム設計回帰における不偏最小二乗推定量を構築可能か？
RQ2不偏性を保ちつつ、期待損失を最適値の1+ϵ倍以内に抑えるために必要な最小サンプルサイズは何か？
RQ3大規模データセットにおいて、データサイズにほぼ線形な時間でこのような不偏推定量を構築できる効率的なアルゴリズムを設計可能か？
RQ4決定論的点プロセス（DPP）を用いて、線形回帰における不偏性を保証する非i.i.d.サンプルをどのように構築できるか？
RQ5ボリュームスケーリング付きサンプリングの分析と主な理論的結果の証明に必要な新しい行列の期待値恒等式は何か？

主な発見

ボリュームスケーリング付きサンプル上の最小二乗解は、応答モデルに依存せず、最適な予測子の不偏推定量である。
任意の入力分布とϵ > 0に対して、サイズO(d log d + d/ϵ)のランダム設計が存在し、その場合に推定量の期待損失は最適損失の(1+ϵ)倍以内に収束する。
入力分布がサイズn ≫ dの大規模データセット上で一様である場合、不偏推定量の構築がほぼ線形時間で達成可能である。
本フレームワークは、DPPからのサンプリングをサンプルサイズの多項式時間で可能にする、新しいアルゴリズム的技術「歪みのない中間サンプリング」を導入している。
解析により、推定量の期待二乗誤差が最適損失の定数倍で抑えられることを証明し、行列集中とDPPの性質から明示的な定数を導出している。
本稿では、任意の単位共分散行列をもつ確率的ベクトルxに対して、∥E[bx]∥² ≤ E[b²]を満たす新しい行列恒等式を確立しており、これは推定量のバイアスを抑えるために不可欠である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。