Skip to main content
QUICK REVIEW

[논문 리뷰] Adaptivity and Computation-Statistics Tradeoffs for Kernel and Distance based High Dimensional Two Sample Testing

Aaditya Ramdas, Sashank J. Reddi|arXiv (Cornell University)|2015. 08. 04.
Statistical Methods and Inference참고 문헌 31인용 수 23
한 줄 요약

이 논문은 고차원 설정에서 커널 기반(gMMD)과 거리 기반(eED) 두 샘플 검정 간 이론적 연결을 수립하여, 평균 차이 대안(MDA)에 대해 점점 더 같아지고 최적의 검정력을 갖는다는 것을 보여주며, 일반적인 분포 차이(GDA)에 대해서도 일致성을 유지한다. 이는 계산-통계적 트레이드오프를 드러내며, 계산 비용이 증가할수록 검정력이 향상되며, gMMD의 성능이 중앙값 히우리즘을 초월한 밴드폭 선택에 대해 강건하다는 것을 보여준다.

ABSTRACT

Nonparametric two sample testing is a decision theoretic problem that involves identifying differences between two random variables without making parametric assumptions about their underlying distributions. We refer to the most common settings as mean difference alternatives (MDA), for testing differences only in first moments, and general difference alternatives (GDA), which is about testing for any difference in distributions. A large number of test statistics have been proposed for both these settings. This paper connects three classes of statistics - high dimensional variants of Hotelling's t-test, statistics based on Reproducing Kernel Hilbert Spaces, and energy statistics based on pairwise distances. We ask the question: how much statistical power do popular kernel and distance based tests for GDA have when the unknown distributions differ in their means, compared to specialized tests for MDA? We formally characterize the power of popular tests for GDA like the Maximum Mean Discrepancy with the Gaussian kernel (gMMD) and bandwidth-dependent variants of the Energy Distance with the Euclidean norm (eED) in the high-dimensional MDA regime. Some practically important properties include (a) eED and gMMD have asymptotically equal power; furthermore they enjoy a free lunch because, while they are additionally consistent for GDA, they also have the same power as specialized high-dimensional t-test variants for MDA. All these tests are asymptotically optimal (including matching constants) under MDA for spherical covariances, according to simple lower bounds, (b) The power of gMMD is independent of the kernel bandwidth, as long as it is larger than the choice made by the median heuristic, (c) There is a clear and smooth computation-statistics tradeoff for linear-time, subquadratic-time and quadratic-time versions of these tests, with more computation resulting in higher power.

연구 동기 및 목표

  • 분포가 평균에서만 다를 경우(MDA) 일반적인 커널 기반 및 거리 기반 검정(gMMD, eED)의 통계적 검정력이 특화된 고차원 t-검정과 비교하여 어떻게 되는지 이해하는 것.
  • 특히 검정력, 분산, 밴드폭 의존성 측면에서 고차원 MDA 하에서 gMMD와 eED의 점근적 행동을 기술하는 것.
  • 이러한 검정의 선형 시간, 부분 제곱 시간, 제곱 시간 변형 간에 계산-통계적 트레이드오프를 수립하는 것.
  • gMMD의 밴드폭 선택에 중앙값 히우리즘을 사용하는 데 이론적 근거를 제공하는 것.
  • 구면 공분산 구조 하에서 MDA에 대해 gMMD와 eED가 점근적으로 최적임을 증명하여 하한선과 동일한 상수를 갖는 것.

제안 방법

  • U-통계량 이론과 에르미트 다항식 전개를 사용하여 귀무가설과 대립가설 하에서 검정 통계량의 점근적 분포를 유도한다.
  • 고차원 MDA 하에서 고차 모멘트를 근사하기 위해 가우시안 커널과 수정된 유클리드 거리에 대한 테일러 전개를 적용한다.
  • 고차원 가우시안 벡터에서의 이차 형식의 추적 점근적 성질과 모멘트 유계를 사용하여 검정 통계량의 평균과 분산을 기술한다.
  • 신호 대 잡음 비율이 높을 때, 대립가설 하에서 gMMD와 eED의 분산이 O(1/n)임을 입증하며, 귀무가설 하에서는 O(1/n²)임을 보여주며, 이는 고차원에서의 열화된 U-통계량과 일致한다.
  • MDA 하에서 gMMD와 eED의 점근적 검정력이 특화된 고차원 t-검정과 비교하여, 극한 검정력과 상수에서 동일함을 보여준다.
  • gMMD의 검정력이 중앙값 히우리즘 값 이상이면 밴드폭에 영향을 받지 않음을 보여준다.

실험 결과

연구 질문

  • RQ1분포가 평균에서만 다를 경우(MDA) 일반적인 분포 차이 대안(GDA)에 대해 gMMD와 eED의 검정력이 특화된 고차원 t-검정과 비교하여 어떻게 되는가?
  • RQ2gMMD의 밴드폭 선택에 중앙값 히우리즘을 사용하는 데 이론적 근거가 있는가?
  • RQ3커널 기반 및 거리 기반 두 샘플 검정에서 계산 비용과 통계적 검정력 간의 관계는 무엇인가?
  • RQ4gMMD와 eED는 구면 공분산 구조 하에서 MDA에 대해 점근적으로 최적의 검정력을 갖는가?
  • RQ5고차원 MDA 하에서 gMMD와 eED의 분산과 점근적 분포는 어떻게 행동하는가?

주요 결과

  • gMMD와 eED는 MDA에 대해 점근적으로 동일한 검정력을 갖으며, 동일한 조건에서 특화된 고차원 t-검정의 검정력과 일치한다.
  • gMMD의 검정력은 중앙값 히우리즘 값 이상의 밴드폭을 선택할 경우 밴드폭에 영향을 받지 않는다.
  • 구면 공분산 하에서 gMMD와 eED는 MDA에 대해 점근적으로 최적이며, 하한선과 동일한 극한 검정력과 상수를 달성한다.
  • 계산-통계적 트레이드오프가 매끄럽게 존재한다: 계산 비용을 선형 시간에서 제곱 시간으로 증가시키면 통계적 검정력이 직접적으로 한 계단 증가한다.
  • 대립가설 하에서 gMMD와 eED의 분산은 O(1/n)이며, 귀무가설 하에서는 O(1/n²)이다. 이는 고차원에서의 열화된 U-통계량과 일치한다.
  • 이론적 분석은 gMMD와 eED가 자동으로 MDA에 적응되며, GDA에 대해 일치성 있고 MDA에 대해 최적의 검정력을 갖는다는 것을 확인한다. 재파rameterization이 필요하지 않다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.