Skip to main content
QUICK REVIEW

[논문 리뷰] The xyz algorithm for fast interaction search in high-dimensional data

Gian-Andrea Thanei, Nicolai Meinshausen|arXiv (Cornell University)|2016. 10. 17.
Gene expression and cancer classification참고 문헌 27인용 수 7
한 줄 요약

xyz 알고리즘은 랜덤 프로젝션을 통해 상호작용 탐지 문제를 가장 가까운 쌍 문제로 변환함으로써 고차원 데이터에서의 빠른 상호작용 탐색을 위한 랜덤화된, 서브제곱 시간 알고리즘입니다. 강한 상호작용은 거의 선형 시간 내에 탐지 가능하며, 약한 상호작용은 O(p^α) 스케일링을 보입니다. 단일 코어 CPU에서 10^11개 이상의 상호작용을 280초 이내에 걸러내며, 이론적 보장과 함께 CRAN 및 GitHub에서 R 구현을 제공합니다.

ABSTRACT

When performing regression on a dataset with $p$ variables, it is often of interest to go beyond using main linear effects and include interactions as products between individual variables. For small-scale problems, these interactions can be computed explicitly but this leads to a computational complexity of at least $\mathcal{O}(p^2)$ if done naively. This cost can be prohibitive if $p$ is very large. We introduce a new randomised algorithm that is able to discover interactions with high probability and under mild conditions has a runtime that is subquadratic in $p$. We show that strong interactions can be discovered in almost linear time, whilst finding weaker interactions requires $\mathcal{O}(p^α)$ operations for $1 < α< 2$ depending on their strength. The underlying idea is to transform interaction search into a closestpair problem which can be solved efficiently in subquadratic time. The algorithm is called $\mathit{xyz}$ and is implemented in the language R. We demonstrate its efficiency for application to genome-wide association studies, where more than $10^{11}$ interactions can be screened in under $280$ seconds with a single-core $1.2$ GHz CPU.

연구 동기 및 목표

  • p가 클 경우 고차원 데이터에서의 완전한 이원 상호작용 검색이 계산적으로 불가능한 문제를 해결합니다.
  • p가 클 경우에 지나치게 비용이 많이 드는 단순한 상호작용 걸러내기의 O(p²) 복잡도를 극복합니다.
  • 강한 상호작용과 약한 상호작용을 효율적으로 탐지할 수 있는 서브제곱 실행 시간 스케일링을 갖는 방법을 개발합니다.
  • 약한 모멘트 및 尾 조건 하에서 상호작용 복원에 대한 이론적 보장을 제공합니다.
  • 유전체 연관 분석(GWAS)과 같은 대규모 문제에 실용적으로 적용 가능하게 하며, 이는 수십만 개 이상의 변수와 10^11개 이상의 가능한 상호작용 공간을 수반합니다.

제안 방법

  • 응답 벡터를 사용하여 예측 변수를 재정의함으로써 상호작용 탐지를 가장 가까운 쌍 문제로 변환하며, 조건 ∥Xj − Zk∥² < κ′을 만족하도록 Zij = YiXij로 정의합니다.
  • 각 2p개의 벡터(X 및 Z)를 랜덤 프로젝션을 통해 한 차원으로 줄여, O(p log p) 시간 내에 효율적인 정렬을 가능하게 합니다.
  • 랜덤 프로젝션은 상대적 거리를 높은 확률로 유지하므로, 정렬 기반의 근접 이웃 근사화를 통해 서브제곱 실행 시간을 달성할 수 있습니다.
  • 상호작용 탐지에 최적화된 국소성에 민감한 해싱(LSH) 체계로 제안된 방법을 공식화하며, 거짓 양성 및 거짓 음성 비율에 대한 이론적 한계를 제공합니다.
  • 모든 주효과와 이원 상호작용을 서브제곱 비용으로 피팅할 수 있는 라소 기반 프레임워크에 xyz 알고리즘을 통합합니다.
  • 핵심 알고리즘과 그 라소 확장 기능을 R 패키지 'xyz'로 구현하였으며, 재현 가능한 연구를 위해 CRAN 및 GitHub에서 제공됩니다.

실험 결과

연구 질문

  • RQ1고차원 데이터에서의 상호작용 탐색이 p에 대해 서브제곱 시간 내에 수행 가능할 수 있으며, 높은 탐지 능력을 유지할 수 있을까?
  • RQ2정확도를 희생시키지 않고 랜덤 프로젝션을 얼마나 효과적으로 상호작용 탐지의 복잡도를 줄일 수 있을까?
  • RQ3알고리즘의 실행 시간은 상호작용 강도에 따라 어떻게 스케일링되는가? 강한 상호작용에 대해 거의 선형 시간을 달성할 수 있는가?
  • RQ4약한 모멘트 및 尾 조건 하에서 진짜 상호작용 쌍을 정확히 식별할 확률에 대한 이론적 보장은 무엇인가?
  • RQ5p > 10^6개의 변수와 10^11개 이상의 가능한 상호작용을 수반하는 실제 문제, 예를 들어 GWAS에 대해 이 방법을 효율적으로 스케일링할 수 있는가?

주요 결과

  • 신호 대 잡음 비율이 높을 경우, 강한 상호작용에 대해 xyz 알고리즘은 O(np) 실행 시간을 달성하며, p에 대해 거의 선형 시간에 가까워집니다.
  • 약한 상호작용은 1 < α < 2 범위에서 O(p^α) 시간 내에 탐지되며, α는 상호작용 강도가 증가함에 따라 감소합니다.
  • 단일 코어 1.2 GHz CPU를 사용하여 280초 이내에 10^11개 이상의 이원 상호작용을 걸러낼 수 있어 실용적 확장성을 입증합니다.
  • 이론적 분석 결과, 표본 크기 n이 증가함에 따라 진짜 상호작용 쌍이 비상호작용 쌍과 분리되는 간격이 증가하는 것으로 나타났습니다.
  • 주효과가 상호작용 효과에 의해 가려져 있는 도전적인 신호 구성에서도 높은 탐지 능력을 보이며, 주효과 우선 전략을 능가합니다.
  • R 패키지 'xyz'는 알고리즘과 그 라소 확장 기능을 완전히 재현 가능한 방식으로 제공하며, 대규모 통계 모델링을 지원합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.