[論文レビュー] The xyz algorithm for fast interaction search in high-dimensional data
xyzアルゴリズムは、ランダムな投影を用いて相互作用検出を最近接ペア問題に変換することで、高次元データにおける高速な相互作用探索のための確率的で、平方未満時間の手法である。強い相互作用の近線形時間での同定と、弱い相互作用のO(p^α)スケーリングを実現し、1コアのCPUで10^11個以上の相互作用を280秒未塔でスクリーニング可能であり、理論的保証とRパッケージの提供(CRANおよびGitHub)を備えている。
When performing regression on a dataset with $p$ variables, it is often of interest to go beyond using main linear effects and include interactions as products between individual variables. For small-scale problems, these interactions can be computed explicitly but this leads to a computational complexity of at least $\mathcal{O}(p^2)$ if done naively. This cost can be prohibitive if $p$ is very large. We introduce a new randomised algorithm that is able to discover interactions with high probability and under mild conditions has a runtime that is subquadratic in $p$. We show that strong interactions can be discovered in almost linear time, whilst finding weaker interactions requires $\mathcal{O}(p^α)$ operations for $1 < α< 2$ depending on their strength. The underlying idea is to transform interaction search into a closestpair problem which can be solved efficiently in subquadratic time. The algorithm is called $\mathit{xyz}$ and is implemented in the language R. We demonstrate its efficiency for application to genome-wide association studies, where more than $10^{11}$ interactions can be screened in under $280$ seconds with a single-core $1.2$ GHz CPU.
研究の動機と目的
- 特にpが大きい場合に、高次元データにおける全組み合わせの相互作用探索が計算的に非現実的であるという問題に取り組む。
- pが大きいと非現実的になる、単純な相互作用スクリーニングのO(p²)の計算量を克服する。
- 強い相互作用と弱い相互作用を、平方未満の実行時間スケーリングで効率的に検出できる手法を開発する。
- やや弱いモーメントおよび尾部条件のもとで、相互作用の回復に関する理論的保証を提供する。
- p > 10^6の変数と10^11個以上の可能な相互作用を有する、ゲノムワイド関連研究(GWAS)のような大規模な問題への実用的応用を可能にする。
提案手法
- 応答ベクトルを用いて予測子を再定義することで、相互作用探索を最近接ペア問題に変換し、Zij = YiXijのもとで ∥Xj − Zk∥² < κ′ の条件を満たす。
- 各々の2p個のベクトル(XおよびZ)をランダム投影により1次元に縮小し、O(p log p)時間での効率的なソーティングを可能にする。
- ランダム投影が相対的な距離を高い確率で保存することを活用し、ソーティングに基づく近似Nearest Neighbor探索により、平方未満の実行時間スケーリングを達成する。
- 相互作用検出に最適化された局所性に敏感なハッシュ(LSH)スキームとして手法を定式化し、誤検出および見逃し率の理論的境界を提示する。
- Lassoに基づくフレームワークにxyzアルゴリズムを統合し、すべての主効果および全ペアワイズ相互作用を、平方未満のコストでフィッティングする。
- コアアルゴリズムおよびそのLasso拡張をRパッケージ'xyz'として実装し、再現性のある研究を可能にするためにCRANおよびGitHubで公開している。
実験結果
リサーチクエスチョン
- RQ1高次元データにおける相互作用探索は、pに関して平方未満時間で実行可能であり、高い検出能力を維持できるか?
- RQ2ランダム投影は、正確性を損なわずに、相互作用検出の複雑さをどの程度低減できるか?
- RQ3アルゴリズムの実行時間は相互作用の強さにどのように依存するか?強い相互作用に対して近線形時間で達成できるか?
- RQ4やや弱いモーメントおよび尾部仮定のもとで、真の相互作用ペアを正しく同定する確率に関する理論的保証は何か?
- RQ5p > 10^6の変数と10^11個以上の可能な相互作用を有する、実世界の問題(例:GWAS)に、この手法は効率的にスケーリング可能か?
主な発見
- 信号対雑音比が高い場合、強い相互作用に対してxyzアルゴリズムはO(np)の実行時間を達成し、pに関して線形に近い時間に近づく。
- 弱い相互作用は1 < α < 2の範囲でO(p^α)時間で検出可能であり、αは相互作用の強さが増すにつれて減少する。
- 1コア1.2GHzのCPUを用いて、10^11個以上のペアワイズ相互作用を280秒未塔でスクリーニング可能であり、実用的なスケーラビリティを示している。
- 理論的分析により、真の相互作用ペアが非相互作用ペアから、標本サイズnに比例して増大するマージンで分離されることが示された。
- 主効果が相互作用効果に埋もれているような挑戦的な信号設定においても、主効果を最初に探索する戦略を上回る高い検出能力を達成した。
- Rパッケージ'xyz'は、アルゴリズムおよびそのLasso拡張の完全な再現可能な実装を提供し、大規模な統計的モデリングを支援している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。