[论文解读] The xyz algorithm for fast interaction search in high-dimensional data
xyz 算法是一种随机化、亚二次时间的快速高维数据交互作用搜索方法,通过随机投影将交互作用检测转化为最近邻对问题。该方法可实现强交互作用的近线性时间发现,弱交互作用的 O(p^α) 时间复杂度,仅用单核 CPU 在 280 秒内即可筛选超过 10^11 个交互作用,具备理论保证,其 R 语言实现已发布于 CRAN 和 GitHub。
When performing regression on a dataset with $p$ variables, it is often of interest to go beyond using main linear effects and include interactions as products between individual variables. For small-scale problems, these interactions can be computed explicitly but this leads to a computational complexity of at least $\mathcal{O}(p^2)$ if done naively. This cost can be prohibitive if $p$ is very large. We introduce a new randomised algorithm that is able to discover interactions with high probability and under mild conditions has a runtime that is subquadratic in $p$. We show that strong interactions can be discovered in almost linear time, whilst finding weaker interactions requires $\mathcal{O}(p^α)$ operations for $1 < α< 2$ depending on their strength. The underlying idea is to transform interaction search into a closestpair problem which can be solved efficiently in subquadratic time. The algorithm is called $\mathit{xyz}$ and is implemented in the language R. We demonstrate its efficiency for application to genome-wide association studies, where more than $10^{11}$ interactions can be screened in under $280$ seconds with a single-core $1.2$ GHz CPU.
研究动机与目标
- 解决在高维数据中进行穷举成对交互作用搜索的计算不可行性,尤其是在 p 较大时。
- 克服朴素交互作用筛选方法中 O(p²) 的复杂度,该复杂度在 p 较大时变得不可行。
- 开发一种方法,能够以亚二次时间复杂度高效检测强弱交互作用。
- 在较弱的矩和尾部条件下,提供交互作用恢复的理论保证。
- 使该方法可实际应用于大规模问题,如具有巨大交互作用空间的全基因组关联研究(GWAS)。
提出的方法
- 通过使用响应向量重新定义预测变量,将交互作用搜索转化为最近邻对问题,从而导出条件 ∥Xj − Zk∥² < κ′,其中 Zij = YiXij。
- 对 2p 个向量(X 和 Z)应用随机投影,将其压缩至一维,从而实现 O(p log p) 时间内的高效排序。
- 利用随机投影在高概率下保持相对距离的性质,通过基于排序的近似最近邻方法实现亚二次时间复杂度。
- 将该方法形式化为一种针对交互作用检测优化的局部敏感哈希(LSH)方案,并提供误报率和漏报率的理论边界。
- 将 xyz 算法集成到基于 Lasso 的框架中,以亚二次成本拟合包含所有主效应和成对交互作用的模型。
- 在 R 包 'xyz' 中实现核心算法及其 Lasso 扩展版本,该包可在 CRAN 和 GitHub 上获取,支持可复现研究。
实验结果
研究问题
- RQ1在高维数据中,是否可以在保持高检测能力的同时,以关于 p 的亚二次时间复杂度完成交互作用搜索?
- RQ2随机投影在多大程度上能降低交互作用检测的复杂度,同时不牺牲准确性?
- RQ3该算法的运行时间如何随交互作用强度变化?是否能在强交互作用下实现接近线性时间?
- RQ4在较弱的矩和尾部假设下,正确识别真实交互作用的概率具有怎样的理论保证?
- RQ5该方法能否高效扩展至真实世界问题,如具有 p > 10^6 个变量和超过 10^11 种可能交互作用的 GWAS?
主要发现
- 当信噪比较高时,xyz 算法对强交互作用的运行时间为 O(np),接近关于 p 的线性时间。
- 对较弱交互作用,检测时间复杂度为 O(p^α),其中 1 < α < 2,且 α 随交互作用强度增加而减小。
- 该算法仅用单核 1.2 GHz CPU 在 280 秒内即可筛选超过 10^11 个成对交互作用,展现出实际可扩展性。
- 理论分析表明,以高概率,真实交互作用对与非交互作用对之间的距离差会随样本量 n 增大而增长。
- 即使主效应被交互作用效应掩盖,该方法仍能保持高检测能力,优于主效应优先策略在复杂信号配置下的表现。
- R 包 'xyz' 提供了该算法及其 Lasso 扩展版本的完整可复现实现,支持大规模统计建模。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。