[论文解读] Kernel MMD, the Median Heuristic and Distance Correlation in High Dimensions.
本文研究了在高维设置下最大均值差异(MMD)和距离相关性(dCor)的性能,表明这两种方法的检验效能均随维度增加而呈多项式衰减。本文进一步分析了核带宽选择中的中位数法则,表明其可能导致MMD的衰减在维度上呈多项式甚至指数形式,从而挑战了其对高维数据具有鲁棒性的说法。
This paper is about two related methods for two sample testing and independence testing which have emerged over the last decade: Maximum Mean Discrepancy (MMD) for the former problem and Distance Correlation (dCor) for the latter. Both these methods have been suggested for high-dimensional problems, and sometimes claimed to be unaffected by increasing dimensionality of the samples. We will show theoretically and practically that the power of both methods (for different reasons) does actually decrease polynomially with dimension. We also analyze the median heuristic, which is a method for choosing tuning parameters of translation invariant kernels. We show that different bandwidth choices could result in the MMD decaying polynomially or even exponentially in dimension. 1
研究动机与目标
- 评估MMD和距离相关性在高维双样本检验和独立性检验中的有效性。
- 探究尽管存在经验局限性,为何这些方法常被认为对高维性具有鲁棒性。
- 分析中位数法则对平移不变核中核带宽选择的影响。
- 从理论和实证两方面证明MMD和dCor的检验效能随维度增加呈多项式衰减。
提出的方法
- 对高维分布中MMD和dCor检验效能行为的理论分析。
- 推导并检验核带宽选择(特别是通过中位数法则)对MMD性能的影响。
- 使用平移不变核来建模在不同维度下的MMD表现。
- 在维度不断增加的情况下,对MMD和dCor检验效能进行实证评估。
- 比较不同带宽选择策略(包括中位数法则)对MMD衰减速率的影响。
- 分析MMD和dCor在维度增加时的渐近行为,表明其检验效能呈多项式衰减。
实验结果
研究问题
- RQ1随着维度增加,MMD和距离相关性的检验效能是否真的保持稳定?
- RQ2中位数法则在高维设置下如何影响MMD的衰减速率?
- RQ3在高维中,核带宽选择与MMD性能之间的理论关系是什么?
- RQ4MMD和dCor能否在高维双样本检验和独立性检验中保持高统计效能?
- RQ5MMD和dCor检验效能随维度增加而衰减的精确尺度规律是什么?
主要发现
- MMD和距离相关性的检验效能均随维度增加呈多项式衰减,这与声称其对维度不敏感的说法相矛盾。
- 带宽选择的中位数法则可能导致MMD在高维中呈多项式甚至指数衰减。
- 不同的带宽选择显著影响MMD性能,部分选择会导致检验效能迅速下降。
- 理论分析证实,随着维度增加,MMD的检验效能会减弱,尤其在使用次优核带宽时更为明显。
- 实证结果验证了在高维设置下,MMD和dCor的效能均会下降,尤其当带宽通过中位数法则选择时更为显著。
- 本研究挑战了MMD和dCor对高维数据具有鲁棒性的假设,表明其性能会随维度系统性地退化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。