[论文解读] Measuring Association on Topological Spaces Using Kernels and Geometric Graphs
在一般拓扑空间中,X 与 Y 的非参数关联度量基于 RKHS 内核和几何图结构构建,能够进行独立性检验并适应内在维度。
In this paper we propose and study a class of simple, nonparametric, yet interpretable measures of association between two random variables $X$ and $Y$ taking values in general topological spaces. These nonparametric measures -- defined using the theory of reproducing kernel Hilbert spaces -- capture the strength of dependence between $X$ and $Y$ and have the property that they are 0 if and only if the variables are independent and 1 if and only if one variable is a measurable function of the other. Further, these population measures can be consistently estimated using the general framework of graph functionals which include $k$-nearest neighbor graphs and minimum spanning trees. Moreover, a sub-class of these estimators are also shown to adapt to the intrinsic dimensionality of the underlying distribution. Some of these empirical measures can also be computed in near linear time. Under the hypothesis of independence between $X$ and $Y$, these empirical measures (properly normalized) have a standard normal limiting distribution. Thus, these measures can also be readily used to test the hypothesis of mutual independence between $X$ and $Y$. In fact, as far as we are aware, these are the only procedures that possess all the above mentioned desirable properties. Furthermore, when restricting to Euclidean spaces, we can make these sample measures of association finite-sample distribution-free, under the hypothesis of independence, by using multivariate ranks defined via the theory of optimal transport. The recent correlation coefficient proposed in Dette et al. (2013), Chatterjee (2019), and Azadkia and Chatterjee (2019) can be seen as a special case of this general class of measures.
研究动机与目标
- 在一般拓扑空间中定义(X,Y)的总体关联度量和经验性关联度量。
- 提出一个基于核的度量,当X和Y独立时等于0,当Y是X的无噪声函数时等于1。
- 给出利用k最近邻图和最小生成树等几何图的KMAc一致估计量。
- 在独立性假设下建立渐近正态性并推导时间高效的估计量。
- 展示对内在维度的自适应能力,并讨论在欧几里得设置中的有限样本性质。
提出的方法
- 引入 eta_K 作为使用在 Y 上的特征核 K 和 RKHS H_K 的总体度量。
- 通过在 X 上构建几何图 G_n,其中将邻近的 X_i 连边,使用 K(Y_i,Y_j) 构造经验估计量 etâ_n。
- 定义核关联测度估计量 η̂_n = [ (1/n) ∑_i d_i^{-1} ∑_{j:(i,j)∈E(G_n)} K(Y_i,Y_j) - (1/[n(n-1)]) ∑_{i≠j} K(Y_i,Y_j) ] / [ (1/n) ∑_i K(Y_i,Y_i) - (1/[n(n-1)]) ∑_{i≠j} K(Y_i,Y_j) ].
- 给出关于 G_n 的条件(A1)-(A2)以实现对 η_K(μ) 的一致性,并证明 η_K(μ) = 1 - E||K(·,Y′)−K(·,Ỹ′)||_H^2 / E||K(·,Y)−K(·,Y′)||_H^2。
- 讨论线性时间变体 η̂_n^{lin} 以及使用最优传输的多变量秩的秩基且分布无关的版本 η̂_n^{rank}。
- 讨论近线性时间实现和在独立性下的中心极限定理等计算方面的问题。
实验结果
研究问题
- RQ1是否可以在一般拓扑空间中定义一个简单的、非参数的 X 与 Y 关联度量,使其在独立时为0、在 Y 为 X 的函数时为1?
- RQ2如何将 RKHS 内核和几何图结合起来,从数据中一致地估计该关联?
- RQ3在独立性下,所提度量的渐近分布性质(如 CLT)是什么,以及它们如何支持检验?
- RQ4所提方法能否适应内在维度并实现近线性计算复杂度?
主要发现
- 定义了满足在独立性下为0、在无噪声函数依赖下为1 的总体核度量 η_K(μ),前提是核 K 为特征核。
- 基于 k-NN 图和其他几何图的经验估计 η̂_n 能对 η_K(μ) 进行一致估计。
- 在独立性下,η̂_n(适当归一化)在大类图上统一地满足标准正态分布的 CLT。
- 该方法对 X 与 Y 的内在维度具有自适应性,并提供近线性时间估计量 η̂_n^{lin}。
- 当 X 和 Y 为欧几里得时,使用多变量秩的分布无关变体 η̂_n^{rank} 在独立性下提供有限样本分布无关的检验。
- 该框架包括并推广 Dette 等人、Chatterjee、以及 Azadkia–Chatterjee 提出的相关性类度量,作为特例。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。