Skip to main content
QUICK REVIEW

[論文レビュー] Optimal compression of approximate Euclidean distances

Noga Alon, Bo’az Klartag|arXiv (Cornell University)|Oct 2, 2016
Computational Geometry and Mesh Generation参考文献 4被引用数 1
ひとこと要約

本稿では、R^k 内の n 点間の近似ユークリッド距離を加法的誤差 ε で圧縮するための最適なアルゴリズムを提示し、1点あたり O(f(n,k,ε)/n) ビットのスケッチサイズを達成する。線形時間での復元手法を提供し、ε ≥ 1/n^{0.49} の場合にスケッチサイズのタイトな境界を確立するとともに、次元削減の新たな限界を示し、加法的誤差付きジョンソン=リンドンストラス埋め込みの確率的アルゴリズムを構築する。

ABSTRACT

Let $X$ be a set of $n$ points of norm at most $1$ in the Euclidean space $R^k$, and suppose $\varepsilon>0$. An $\varepsilon$-distance sketch for $X$ is a data structure that, given any two points of $X$ enables one to recover the square of the (Euclidean) distance between them up to an {\em additive} error of $\varepsilon$. Let $f(n,k,\varepsilon)$ denote the minimum possible number of bits of such a sketch. Here we determine $f(n,k,\varepsilon)$ up to a constant factor for all $n \geq k \geq 1$ and all $\varepsilon \geq \frac{1}{n^{0.49}}$. Our proof is algorithmic, and provides an efficient algorithm for computing a sketch of size $O(f(n,k,\varepsilon)/n)$ for each point, so that the square of the distance between any two points can be computed from their sketches up to an additive error of $\varepsilon$ in time linear in the length of the sketches. We also discuss the case of smaller $\varepsilon>2/\sqrt n$ and obtain some new results about dimension reduction in this range. In particular, we show that for any such $\varepsilon$ and any $k \leq t=\frac{\log (2+\varepsilon^2 n)}{\varepsilon^2}$ there are configurations of $n$ points in $R^k$ that cannot be embedded in $R^{\ell}$ for $\ell < ck$ with $c$ a small absolute positive constant, without distorting some inner products (and distances) by more than $\varepsilon$. On the positive side, we provide a randomized polynomial time algorithm for a bipartite variant of the Johnson-Lindenstrauss lemma in which scalar products are approximated up to an additive error of at most $\varepsilon$. This variant allows a reduction of the dimension down to $O(\frac{\log (2+\varepsilon^2 n)}{\varepsilon^2})$, where $n$ is the number of points.

研究の動機と目的

  • R^k 内の n 点間の二乗ユークリッド距離を加法的誤差 ε で保存するために必要な最小スケッチサイズ f(n,k,ε) を特定すること。
  • スケッチサイズが 1 点あたり O(f(n,k,ε)/n) ビットであるような効率的なアルゴリズムを設計し、そのスケッチを用いて距離を線形時間で回復可能にすること。
  • ε > 2/√n の場合に、次元削減の根本的限界を、内積および距離の歪みの観点から明らかにすること。
  • 加法的誤差 ε を許容する双方向のジョンソン=リンドンストラス補題の変種に対して、確率的多項式時間アルゴリズムを構築すること。
  • ε ≥ 1/n^{0.49} の場合にスケッチサイズのタイトな境界を確立し、ε が小さいが非自明な範囲での挙動を分析すること。

提案手法

  • 加法的誤差の境界に特化した、ランダムプロジェクションと次元削減技術を組み合わせた新しい ε-距離スケッチの構築法を用いる。
  • 双方向設定においてスカラー積を加法的誤差 ε 以内に保つ確率的埋め込みスキームを適用し、次元削減を O(log(2+ε²n)/ε²) 次元にまで行う。
  • 各点に対して O(f(n,k,ε)/n) ビットのスケッチを計算し、任意の2点間の二乗距離をスケッチ長に比例する線形時間で復元可能である。
  • 集中不等式およびランダムプロジェクションにおける内積保存の性質を用いて、加法的歪みを制限する。
  • 低次元埋め込みに耐性のある困難なインスタンスを構築することで、スケッチサイズの下界を確立する。
  • アルゴリズム的スケッチと情報理論的下界を組み合わせることで、定数倍の誤差の範囲内で f(n,k,ε) をタイトに特徴づける。

実験結果

リサーチクエスチョン

  • RQ1ε ≥ 1/n^{0.49} の場合に、R^k 内の n 点間の二乗ユークリッド距離を加法的誤差 ε でスケッチするために必要な最小ビット数は何か?
  • RQ2スケッチサイズが 1 点あたり O(f(n,k,ε)/n) ビットであるような効率的アルゴリズムが、加法的誤差 ε 以内で距離を線形時間で回復可能か?
  • RQ3ε > 2/√n の場合に、次元削減の根本的限界は何か。特に、内積および距離の歪みの観点から明らかにされたい。
  • RQ4加法的誤差 ε を許容する双方向ジョンソン=リンドンストラス設定において、確率的多項式時間アルゴリズムがスカラー積を保存可能か?
  • RQ5ε や k がどのような値のときに、R^k 内の n 点を ℓ < ck(c は小さな絶対定数)次元に埋め込むことが、距離または内積の歪みを ε を超えて行わずに不可能になるか?

主な発見

  • 本稿では、すべての n ≥ k ≥ 1 および ε ≥ 1/n^{0.49} に対して、f(n,k,ε) を定数倍の誤差で特定し、スケッチサイズのタイトな境界を確立した。
  • 効率的なアルゴリズムにより、1 点あたり O(f(n,k,ε)/n) ビットのスケッチを計算し、加法的誤差 ε 以内で二乗距離を線形時間で回復可能であることを示した。
  • ε > 2/√n の場合、R^k 内の n 点の一部の配置は、絶対定数 c に対して ℓ < ck 次元に埋め込むと、内積または距離の歪みが ε を超えて生じる。
  • 双方向ジョンソン=リンドンストラス補題の変種に対して、次元削減を O(log(2+ε²n)/ε²) 次元にまで行う加法的誤差 ε を許容する確率的多項式時間アルゴリズムを提供した。
  • 本研究は、加法的誤差の下での次元削減が根本的に制限されることを示した:ε ≥ 1/n^{0.49} の場合、スケッチサイズはタイトに特徴づけられ、顕著な歪みなしにサブ線形次元削減は不可能である。
  • スケッチサイズが Θ(n · f(n,k,ε)/n) = Θ(f(n,k,ε)) であることが判明し、提示された構築法の最適性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。