QUICK REVIEW

[论文解读] The xyz algorithm for fast interaction search in high-dimensional data

Gian-Andrea Thanei, Nicolai Meinshausen|arXiv (Cornell University)|Oct 17, 2016

Gene expression and cancer classification参考文献 27被引用 7

一句话总结

xyz 算法是一种随机化、亚二次时间的快速高维数据交互作用搜索方法，通过随机投影将交互作用检测转化为最近邻对问题。该方法可实现强交互作用的近线性时间发现，弱交互作用的 O(p^α) 时间复杂度，仅用单核 CPU 在 280 秒内即可筛选超过 10^11 个交互作用，具备理论保证，其 R 语言实现已发布于 CRAN 和 GitHub。

ABSTRACT

When performing regression on a dataset with $p$ variables, it is often of interest to go beyond using main linear effects and include interactions as products between individual variables. For small-scale problems, these interactions can be computed explicitly but this leads to a computational complexity of at least $\mathcal{O}(p^2)$ if done naively. This cost can be prohibitive if $p$ is very large. We introduce a new randomised algorithm that is able to discover interactions with high probability and under mild conditions has a runtime that is subquadratic in $p$. We show that strong interactions can be discovered in almost linear time, whilst finding weaker interactions requires $\mathcal{O}(p^α)$ operations for $1 < α< 2$ depending on their strength. The underlying idea is to transform interaction search into a closestpair problem which can be solved efficiently in subquadratic time. The algorithm is called $\mathit{xyz}$ and is implemented in the language R. We demonstrate its efficiency for application to genome-wide association studies, where more than $10^{11}$ interactions can be screened in under $280$ seconds with a single-core $1.2$ GHz CPU.

研究动机与目标

解决在高维数据中进行穷举成对交互作用搜索的计算不可行性，尤其是在 p 较大时。
克服朴素交互作用筛选方法中 O(p²) 的复杂度，该复杂度在 p 较大时变得不可行。
开发一种方法，能够以亚二次时间复杂度高效检测强弱交互作用。
在较弱的矩和尾部条件下，提供交互作用恢复的理论保证。
使该方法可实际应用于大规模问题，如具有巨大交互作用空间的全基因组关联研究（GWAS）。

提出的方法

通过使用响应向量重新定义预测变量，将交互作用搜索转化为最近邻对问题，从而导出条件 ∥Xj − Zk∥² < κ′，其中 Zij = YiXij。
对 2p 个向量（X 和 Z）应用随机投影，将其压缩至一维，从而实现 O(p log p) 时间内的高效排序。
利用随机投影在高概率下保持相对距离的性质，通过基于排序的近似最近邻方法实现亚二次时间复杂度。
将该方法形式化为一种针对交互作用检测优化的局部敏感哈希（LSH）方案，并提供误报率和漏报率的理论边界。
将 xyz 算法集成到基于 Lasso 的框架中，以亚二次成本拟合包含所有主效应和成对交互作用的模型。
在 R 包 'xyz' 中实现核心算法及其 Lasso 扩展版本，该包可在 CRAN 和 GitHub 上获取，支持可复现研究。

实验结果

研究问题

RQ1在高维数据中，是否可以在保持高检测能力的同时，以关于 p 的亚二次时间复杂度完成交互作用搜索？
RQ2随机投影在多大程度上能降低交互作用检测的复杂度，同时不牺牲准确性？
RQ3该算法的运行时间如何随交互作用强度变化？是否能在强交互作用下实现接近线性时间？
RQ4在较弱的矩和尾部假设下，正确识别真实交互作用的概率具有怎样的理论保证？
RQ5该方法能否高效扩展至真实世界问题，如具有 p > 10^6 个变量和超过 10^11 种可能交互作用的 GWAS？

主要发现

当信噪比较高时，xyz 算法对强交互作用的运行时间为 O(np)，接近关于 p 的线性时间。
对较弱交互作用，检测时间复杂度为 O(p^α)，其中 1 < α < 2，且 α 随交互作用强度增加而减小。
该算法仅用单核 1.2 GHz CPU 在 280 秒内即可筛选超过 10^11 个成对交互作用，展现出实际可扩展性。
理论分析表明，以高概率，真实交互作用对与非交互作用对之间的距离差会随样本量 n 增大而增长。
即使主效应被交互作用效应掩盖，该方法仍能保持高检测能力，优于主效应优先策略在复杂信号配置下的表现。
R 包 'xyz' 提供了该算法及其 Lasso 扩展版本的完整可复现实现，支持大规模统计建模。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。