[論文レビュー] Measuring Association on Topological Spaces Using Kernels and Geometric Graphs
一般の位相空間における X と Y の非パラメトリックな結合の測度は RKHS カーネルと幾何グラフから構築され、独立性検定と固有次元性への適応を可能にする。
In this paper we propose and study a class of simple, nonparametric, yet interpretable measures of association between two random variables $X$ and $Y$ taking values in general topological spaces. These nonparametric measures -- defined using the theory of reproducing kernel Hilbert spaces -- capture the strength of dependence between $X$ and $Y$ and have the property that they are 0 if and only if the variables are independent and 1 if and only if one variable is a measurable function of the other. Further, these population measures can be consistently estimated using the general framework of graph functionals which include $k$-nearest neighbor graphs and minimum spanning trees. Moreover, a sub-class of these estimators are also shown to adapt to the intrinsic dimensionality of the underlying distribution. Some of these empirical measures can also be computed in near linear time. Under the hypothesis of independence between $X$ and $Y$, these empirical measures (properly normalized) have a standard normal limiting distribution. Thus, these measures can also be readily used to test the hypothesis of mutual independence between $X$ and $Y$. In fact, as far as we are aware, these are the only procedures that possess all the above mentioned desirable properties. Furthermore, when restricting to Euclidean spaces, we can make these sample measures of association finite-sample distribution-free, under the hypothesis of independence, by using multivariate ranks defined via the theory of optimal transport. The recent correlation coefficient proposed in Dette et al. (2013), Chatterjee (2019), and Azadkia and Chatterjee (2019) can be seen as a special case of this general class of measures.
研究の動機と目的
- 一般の位相空間における (X,Y) の母集団と経験的な結合測度を定義する。
- XとYが独立であるならば0、YがXのノイズのない関数であるならば1となるカーネルベースの測度を開発する。
- k-NNグラフやMSTなどの幾何グラフを用いて、一貫した推定量(KMAc)を提供する。
- 独立性の下で極限定常性を確立し、時間効率の良い推定量を導出する。
- 内在的次元性への適応を示し、ユークリッド空間における有限標本特性について議論する。
提案手法
- Y 上の特徴カーネル K と RKHS H_K を用いて母集団測度 eta_K を導入する。
- 近傍の X_i を結ぶ辺を持つ幾何グラフ G_n 上で、K(Y_i,Y_j) を用いて経験的推定量 etâ_n を構築する。
- Define the kernel measure of association estimator η̂_n = [ (1/n) sum_i d_i^{-1} sum_{j:(i,j)∈E(G_n)} K(Y_i,Y_j) - (1/[n(n-1)]) sum_{i≠j} K(Y_i,Y_j) ] / [ (1/n) sum_i K(Y_i,Y_i) - (1/[n(n-1)]) sum_{i≠j} K(Y_i,Y_j) ].
- η_K(μ) への一貫性の条件 (A1)-(A2) を G_n に対して説明し、 η_K(μ) = 1 - E||K(·,Y′)−K(·,Ỹ′)||_H^2 / E||K(·,Y)−K(·,Y′)||_H^2 を示す。
- 線形時間バリアント η̂_n^{lin} と、最適輸送に基づく多変量ランクを用いたランクベースの、分布自由なバージョン η̂_n^{rank} を議論する。
- 独立性の下での近似線形時間実装と CLTs の扱いなど、計算上の側面を扱う。
実験結果
リサーチクエスチョン
- RQ1一般の位相空間で、X と Y の独立性の下で 0、Y が X の関数であるとき 1 となる簡単な非パラメトリックな結合測度を定義できるか?
- RQ2RKHS カーネルと幾何グラフを組み合わせて、この結合をデータから一貫して推定できるか?
- RQ3提案された測度の独立性下での漸近的分布特性(例:CLT)はどうなるか、そしてそれらは検定をどのように可能にするか?
- RQ4提案手法は内在的次元性へ適応し、ほぼ線形の計算複雑性を達成できるか?
主な発見
- 母集団カーネル測度 η_K(μ) は、特徴カーネル K を仮定した下で独立性が 0、ノイズのない関数的依存が 1 となるよう定義される。
- k-NN グラフやその他の幾何グラフに基づく経験的推定量 η̂_n は一貫して η_K(μ) を推定する。
- 独立性の下で、η̂_n は適切に正規化された場合、標本空間上の大きなクラスにわたって標準正規分布の CLT を満たす。
- X と Y の内在的次元性に適応し、近線形時間の推定量 η̂_n^{lin} が利用可能。
- X と Y がユークリッド空間の場合、多変量ランクを用いた分布自由な推定量 η̂_n^{rank)は独立性の下で有限標本分布自由検定を提供する。
- このフレームワークは Dette ら、Chatterjee、Azadkia–Chatterjee によって提案された相関型測度を特別なケースとして包含・一般化する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。