Skip to main content
QUICK REVIEW

[论文解读] The xyz algorithm for fast interaction search in high-dimensional data

Gian-Andrea Thanei, Nicolai Meinshausen|arXiv (Cornell University)|Oct 17, 2016
Gene expression and cancer classification参考文献 27被引用 7
一句话总结

xyz 算法是一种随机化、亚二次时间的快速高维数据交互作用搜索方法,通过随机投影将交互作用检测转化为最近邻对问题。该方法可实现强交互作用的近线性时间发现,弱交互作用的 O(p^α) 时间复杂度,仅用单核 CPU 在 280 秒内即可筛选超过 10^11 个交互作用,具备理论保证,其 R 语言实现已发布于 CRAN 和 GitHub。

ABSTRACT

When performing regression on a dataset with $p$ variables, it is often of interest to go beyond using main linear effects and include interactions as products between individual variables. For small-scale problems, these interactions can be computed explicitly but this leads to a computational complexity of at least $\mathcal{O}(p^2)$ if done naively. This cost can be prohibitive if $p$ is very large. We introduce a new randomised algorithm that is able to discover interactions with high probability and under mild conditions has a runtime that is subquadratic in $p$. We show that strong interactions can be discovered in almost linear time, whilst finding weaker interactions requires $\mathcal{O}(p^α)$ operations for $1 < α< 2$ depending on their strength. The underlying idea is to transform interaction search into a closestpair problem which can be solved efficiently in subquadratic time. The algorithm is called $\mathit{xyz}$ and is implemented in the language R. We demonstrate its efficiency for application to genome-wide association studies, where more than $10^{11}$ interactions can be screened in under $280$ seconds with a single-core $1.2$ GHz CPU.

研究动机与目标

  • 解决在高维数据中进行穷举成对交互作用搜索的计算不可行性,尤其是在 p 较大时。
  • 克服朴素交互作用筛选方法中 O(p²) 的复杂度,该复杂度在 p 较大时变得不可行。
  • 开发一种方法,能够以亚二次时间复杂度高效检测强弱交互作用。
  • 在较弱的矩和尾部条件下,提供交互作用恢复的理论保证。
  • 使该方法可实际应用于大规模问题,如具有巨大交互作用空间的全基因组关联研究(GWAS)。

提出的方法

  • 通过使用响应向量重新定义预测变量,将交互作用搜索转化为最近邻对问题,从而导出条件 ∥Xj − Zk∥² < κ′,其中 Zij = YiXij。
  • 对 2p 个向量(X 和 Z)应用随机投影,将其压缩至一维,从而实现 O(p log p) 时间内的高效排序。
  • 利用随机投影在高概率下保持相对距离的性质,通过基于排序的近似最近邻方法实现亚二次时间复杂度。
  • 将该方法形式化为一种针对交互作用检测优化的局部敏感哈希(LSH)方案,并提供误报率和漏报率的理论边界。
  • 将 xyz 算法集成到基于 Lasso 的框架中,以亚二次成本拟合包含所有主效应和成对交互作用的模型。
  • 在 R 包 'xyz' 中实现核心算法及其 Lasso 扩展版本,该包可在 CRAN 和 GitHub 上获取,支持可复现研究。

实验结果

研究问题

  • RQ1在高维数据中,是否可以在保持高检测能力的同时,以关于 p 的亚二次时间复杂度完成交互作用搜索?
  • RQ2随机投影在多大程度上能降低交互作用检测的复杂度,同时不牺牲准确性?
  • RQ3该算法的运行时间如何随交互作用强度变化?是否能在强交互作用下实现接近线性时间?
  • RQ4在较弱的矩和尾部假设下,正确识别真实交互作用的概率具有怎样的理论保证?
  • RQ5该方法能否高效扩展至真实世界问题,如具有 p > 10^6 个变量和超过 10^11 种可能交互作用的 GWAS?

主要发现

  • 当信噪比较高时,xyz 算法对强交互作用的运行时间为 O(np),接近关于 p 的线性时间。
  • 对较弱交互作用,检测时间复杂度为 O(p^α),其中 1 < α < 2,且 α 随交互作用强度增加而减小。
  • 该算法仅用单核 1.2 GHz CPU 在 280 秒内即可筛选超过 10^11 个成对交互作用,展现出实际可扩展性。
  • 理论分析表明,以高概率,真实交互作用对与非交互作用对之间的距离差会随样本量 n 增大而增长。
  • 即使主效应被交互作用效应掩盖,该方法仍能保持高检测能力,优于主效应优先策略在复杂信号配置下的表现。
  • R 包 'xyz' 提供了该算法及其 Lasso 扩展版本的完整可复现实现,支持大规模统计建模。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。