Skip to main content
QUICK REVIEW

[论文解读] Comment on "Detecting Novel Associations In Large Data Sets" by Reshef Et Al, Science Dec 16, 2011

Noah Simon, Robert Tibshirani|arXiv (Cornell University)|Jan 29, 2014
Data-Driven Disease Surveillance参考文献 1被引用 69
一句话总结

本文批判了Reshef等人(2011年)提出的最大信息相关性(MIC)方法在大型数据集中检测非线性关联的能力,通过模拟实验表明,MIC在各种噪声水平和依赖类型下,其统计功效始终低于距离相关性(dcor)和皮尔逊相关性,表明尽管MIC声称具有等价性,但在探索性数据分析中仍易产生假阳性结果。

ABSTRACT

The proposal of Reshef et al. (2011) is an interesting new approach for discovering non-linear dependencies among pairs of measurements in exploratory data mining. However, it has a potentially serious drawback. The authors laud the fact that MIC has no preference for some alternatives over others, but as the authors know, there is no free lunch in Statistics: tests which strive to have high power against all alternatives can have low power in many important situations. To investigate this, we ran simulations to compare the power of MIC to that of standard Pearson correlation and distance correlation (dcor). We simulated pairs of variables with different relationships (most of which were considered by the Reshef et. al.), but with varying levels of noise added. To determine proper cutoffs for testing the independence hypothesis, we simulated independent data with the appropriate marginals. As one can see from the Figure, MIC has lower power than dcor, in every case except the somewhat pathological high-frequency sine wave. MIC is sometimes less powerful than Pearson correlation as well, the linear case being particularly worrisome.

研究动机与目标

  • 评估MIC在大型数据集中检测非线性关联的统计功效。
  • 调查MIC所宣称的等价性是否以统计功效低下为代价。
  • 在受控模拟条件下,将MIC的表现与皮尔逊相关性和距离相关性(dcor)等成熟方法进行比较。
  • 评估MIC在大规模探索性数据挖掘中的可靠性,其中假阳性结果可能带来严重问题。

提出的方法

  • 为每个噪声水平和依赖类型独立模拟500组数据集,以估计统计功效。
  • 采用Reshef等人原始研究中的相同边缘分布,以确保比较的公平性。
  • 使用MIC、皮尔逊相关性和dcor计算独立性p值,并从独立数据的模拟中推导出临界值。
  • 在所有方法中应用相同的显著性阈值,以确保第一类错误控制的一致性。
  • 在包括线性、二次和高频正弦波在内的八种不同依赖结构上评估统计功效。
  • 使用R语言实现完整的模拟流程,代码已公开以确保可复现性。

实验结果

研究问题

  • RQ1MIC在各种非线性关系中,尤其是在噪声增加时,是否仍能保持较高的统计功效?
  • RQ2MIC在检测线性和非线性依赖关系时,其功效与皮尔逊相关性和距离相关性相比如何?
  • RQ3在实际应用中,MIC的低统计功效是否会削弱其等价性特性?
  • RQ4由于统计功效低下,MIC是否可能在大规模数据挖掘中导致不可接受的高假阳性率?
  • RQ5距离相关性是否是MIC在通用关联检测中更稳健且更强大的替代方法?

主要发现

  • 在除高频正弦波外的所有模拟依赖类型中,MIC的统计功效均低于距离相关性(dcor)。
  • 在线性关系情况下,MIC的统计功效低于皮尔逊相关性,这一点尤其令人担忧,因为MIC本应超越线性关系的局限。
  • dcor在所有噪声水平和依赖结构中均保持一致的功率优势,表明其具有更高的敏感性。
  • MIC的低功效表明其在大规模探索性数据分析中可能导致不可接受的高假阳性率。
  • 作者结论认为,dcor是检测大型数据集中关联关系的更强大、计算更简单且更可靠的MIC替代方案。
  • 模拟结果表明,MIC的等价性无法弥补其统计功效差的缺陷,限制了其实际应用价值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。