Skip to main content
QUICK REVIEW

[論文レビュー] Unbiased estimates for linear regression via volume sampling

Michał Dereziński, Manfred K. Warmuth|arXiv (Cornell University)|May 19, 2017
Sparse and Compressive Sensing Techniques参考文献 24被引用数 18
ひとこと要約

本稿では、線形回帰における列選択のためのボリュームサンプリングを導入し、サンプルされた列の部分集合の疑似逆行列が、完全な疑似逆行列の不偏推定量であることを証明している。主な貢献は、得られる最小二乗解の期待損失に対する正確な閉形式の式であり、サイズ-$d$のボリュームサンプリングでは、期待損失が最適損失のちょうど$(d+1)$倍であることが示されており、これは最適であり、i.i.d. サンプリング手法よりも顕著に優れている。

ABSTRACT

Given a full rank matrix $X$ with more columns than rows, consider the task of estimating the pseudo inverse $X^+$ based on the pseudo inverse of a sampled subset of columns (of size at least the number of rows). We show that this is possible if the subset of columns is chosen proportional to the squared volume spanned by the rows of the chosen submatrix (ie, volume sampling). The resulting estimator is unbiased and surprisingly the covariance of the estimator also has a closed form: It equals a specific factor times $X^{+ op}X^+$. Pseudo inverse plays an important part in solving the linear least squares problem, where we try to predict a label for each column of $X$. We assume labels are expensive and we are only given the labels for the small subset of columns we sample from $X$. Using our methods we show that the weight vector of the solution for the sub problem is an unbiased estimator of the optimal solution for the whole problem based on all column labels. We believe that these new formulas establish a fundamental connection between linear least squares and volume sampling. We use our methods to obtain an algorithm for volume sampling that is faster than state-of-the-art and for obtaining bounds for the total loss of the estimated least-squares solution on all labeled columns.

研究の動機と目的

  • 列の数が行の数より多い広行列$\mathbf{X}$の疑似逆行列$\mathbf{X}^+$の不偏推定量を生成するサンプリング手法の開発。
  • ボリュームサンプリングと線形最小二乗回帰との根本的な関係の確立。
  • ボリュームサンプリング下での推定量のバイアスおよび共分散の正確な期待値式の導出。
  • 損失が有界であることを保ちながら、必要なラベル付き列の数を最小限に抑えることで、線形回帰におけるサンプル効率の向上。
  • 最先端の手法よりも時間計算量を改善した、より高速なボリュームサンプリングアルゴリズムの設計。

提案手法

  • 列数が$d$以上である$s \geq d$個の列の部分集合$S$を、$\det(\mathbf{X}_S \mathbf{X}_S^\top)$の二乗(体積)に比例する確率でサンプリングする。
  • 部分問題の重みベクトル$\mathbf{w}^{*}(S) = (\mathbf{X}_S)^+ \mathbf{y}_S$を、部分行列$\mathbf{X}_S$の逆行列を用いて計算する。
  • 反復的サンプリング中に、グラム行列$\mathbf{X}_S \mathbf{X}_S^\top$の逆行列を効率的に維持・更新するために、Sherman-Morrisonの公式を活用する。
  • すべての列から始め、そのラベリングスコアに比例する確率で列を反復的に削除する逆反復的ボリュームサンプリングアルゴリズムを設計する。
  • 精度行列$\mathbf{Z} = (\mathbf{X}_S \mathbf{X}_S^\top)^{-1}$を維持し、ランク1更新を用いて効率的な計算を可能にする。
  • 不偏性の証明に、期待値の式$\mathbb{E}[(\mathbf{X} \mathbf{I}_S)^+] = \mathbf{X}^+$を用いる。

実験結果

リサーチクエスチョン

  • RQ1サイズ$s \geq d$の列を選択するボリュームサンプリングが、疑似逆行列$\mathbf{X}^+$の不偏推定量を生成できるか。
  • RQ2ボリュームサンプリングにより選択された部分集合に基づく最小二乗解の期待損失は、完全な解と比べてどの程度か。
  • RQ3サンプルサイズ$s = d$で、乗法的損失境界を達成できるか。また、これは最適か。
  • RQ4ボリュームサンプリングは効率的に計算可能か。また、時間計算量において、既存の手法を上回るか。
  • RQ5繰り返しサンプリングを用いて、$d+1$の損失境界を$1+\epsilon$に改善できるか。

主な発見

  • サイズ$s = d$のボリュームサンプリングにより得られる推定量$\mathbf{w}^{*}(S)$は、最適重みベクトル$\mathbf{w}^*$の不偏推定量である。すなわち、$\mathbb{E}[\mathbf{w}^{*}(S)] = \mathbf{w}^*$である。
  • サイズ$s = d$の場合、サンプル解の期待損失は$\mathbb{E}[L(\mathbf{w}^{*}(S))] = (d+1)L(\mathbf{w}^*)$を満たし、この係数は最適である。
  • 推定量の共分散$\mathbb{E}[(\mathbf{X} \mathbf{I}_S)^+ (\mathbf{X} \mathbf{I}_S)^{+\top}]$には、閉形式の式が存在し、$\frac{n-d+1}{s-d+1} \mathbf{X}^{+\top} \mathbf{X}^+$に等しい。
  • 提案された逆反復的ボリュームサンプリングアルゴリズムは、$O((n-s+d)nd)$の時間で実行され、最先端の手法よりも$n^2$の要因改善されている。
  • サイズ$s > d$の場合、サイズ-$d$の部分集合を繰り返しボリュームサンプリングすることで、$d+1$の損失係数を高確率で$1+\epsilon$に低減できる。
  • ボリュームサンプリングは、$\Omega(d \log d)$個のサンプルが必要なリグレッションスコアサンプリングなどのi.i.d. サンプリング手法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。