Skip to main content
QUICK REVIEW

[論文レビュー] Fast determinantal point processes via distortion-free intermediate sampling

Michał Dereziński|arXiv (Cornell University)|Nov 8, 2018
Random Matrices and Applications被引用数 23
ひとこと要約

本論文は、入力スパarsityに基づく前処理時間 O(nnz(X) log n) および d の多項式時間のサンプリング時間(n に依存しない)を備えた、決定的ポイントプロセス(DPP)からの正確なサンプリングのための新規アルゴリズムを提案する。歪みのない正則化DPP(R-DPP)を中間分布として用いることで、n に線形に依存しない前処理およびサンプリングコストを達成し、従来の手法に比べて顕著に性能向上を実現した。

ABSTRACT

Given a fixed $n\ imes d$ matrix $\\mathbf{X}$, where $n\\gg d$, we study the complexity of sampling from a distribution over all subsets of rows where the probability of a subset is proportional to the squared volume of the parallelepiped spanned by the rows (a.k.a. a determinantal point process). In this task, it is important to minimize the preprocessing cost of the procedure (performed once) as well as the sampling cost (performed repeatedly). To that end, we propose a new determinantal point process algorithm which has the following two properties, both of which are novel: (1) a preprocessing step which runs in time $O(\ ext{number-of-non-zeros}(\\mathbf{X})\\cdot\\log n)+\ ext{poly}(d)$, and (2) a sampling step which runs in $\ ext{poly}(d)$ time, independent of the number of rows $n$. We achieve this by introducing a new regularized determinantal point process (R-DPP), which serves as an intermediate distribution in the sampling procedure by reducing the number of rows from $n$ to $\ ext{poly}(d)$. Crucially, this intermediate distribution does not distort the probabilities of the target sample. Our key novelty in defining the R-DPP is the use of a Poisson random variable for controlling the probabilities of different subset sizes, leading to new determinantal formulas such as the normalization constant for this distribution. Our algorithm has applications in many diverse areas where determinantal point processes have been used, such as machine learning, stochastic optimization, data summarization and low-rank matrix reconstruction.

研究の動機と目的

  • n が大きい場合に顕著に高くなるDPPの前処理およびサンプリングの計算コストを低減すること。
  • 従来のDPPアルゴリズムが Ω(nd²) の前処理時間または Ω(n|S|) のサンプリング時間が必要とするという制限を克服すること。
  • n に依存しないサンプリング時間(つまり poly(d))を備えた正確なDPPサンプリングを可能にする手法の開発。
  • 元のDPPの確率を歪みなく保持する中間分布としての正則化DPP(R-DPP)の導入。
  • データ要約、低ランク行列再構成、確率的最適化の応用分野における効率的なDPPサンプリングの実現。

提案手法

  • 元のDPPの確率を歪みなく保持しつつ、行数を n から poly(d) に削減できる中間分布として正則化DPP(R-DPP)を提案する。
  • R-DPPにおける部分集合のサイズを制御するためにポアソン確率変数を用い、正規化定数の閉形式を含む新たな確率的行列式を導出する。
  • 2段階のサンプリング手順を設計:まずR-DPPから poly(d) サイズの集合をサンプリングし、次にその集合を元のDPP分布に基づいて最終的な集合にダウンサンプリングする。
  • 元のDPPにおけるすべての部分集合の相対的確率を保持することで、中間サンプリング段階を歪みなしに保証する。
  • スパース行列演算と低ランク構造を活用することで、入力スパarsityに比例する前処理時間 O(nnz(X) log n + poly(d)) を達成する。
  • 中間R-DPPの低次元構造と効率的な行列式計算を活用し、poly(d) のサンプリング時間を保証する。

実験結果

リサーチクエスチョン

  • RQ1n に部分的に線形に依存しない前処理時間、具体的には O(nnz(X) log n + poly(d)) を達成できるDPPサンプリングアルゴリズムを設計できるか?
  • RQ2n に依存しない時間計算量(つまり poly(d) のサンプリング時間)を備えた正確なDPPサンプリングが可能か?
  • RQ3元のDPPの確率を歪みなく保持しつつ、行数を poly(d) に削減できる中間分布を構築できるか?
  • RQ4ポアソンに基づくサイズ制御を施した正則化DPPの正規化定数をどのように導出できるか?
  • RQ5歪みのない中間サンプリングをDPPアルゴリズムに用いる場合の理論的および実用的影響は何か?

主な発見

  • 提案手法は入力スパarsityに比例する前処理時間 O(nnz(X) log n + poly(d)) を達成し、正確なDPPサンプリングにおいて初めての結果である。
  • サンプリング時間は n に依存しない poly(d) にまで短縮され、これまでは達成されていなかった性質を初めて実現した。
  • 中間のR-DPP分布は歪みがないため、元のDPPにおけるすべての部分集合の正確な確率を保持している。
  • 部分集合サイズの制御にポアソン確率変数を用いることで、正規化定数の閉形式表現を含む新たな解析的公式が導出可能となった。
  • n ≫ d となる大規模応用分野(例:データ要約、低ランク行列再構成)において、効率的なDPPサンプリングが可能になった。
  • 従来の最先端手法が Ω(nd²) の前処理時間または Ω(n|S|) のサンプリング時間が必要としていたのに対し、本手法はその性能を上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。