Skip to main content
QUICK REVIEW

[논문 리뷰] On the Decreasing Power of Kernel and Distance based Nonparametric Hypothesis Tests in High Dimensions

Sashank J. Reddi, Aaditya Ramdas|arXiv (Cornell University)|2014. 06. 09.
Statistical Methods and Inference참고 문헌 15인용 수 14
한 줄 요약

이 논문은 커널 및 거리 기반 비모수적 가설 검정, 특히 MMD와 거리 상관계수를 포함하여 고차원에서 조건부 Kullback-Leibler 발산이 일정할 때조차도 검정의 검증력(power)이 다항식적으로 감소한다는 것을 보여준다. 저자들은 검정 통계량의 추정 오차는 낮지만, 비제로 값의 탐지 어려움이 차원이 증가함에 따라 증가하여 공정한 대안 대비 검정의 검증력이 감소함을 규명한다.

ABSTRACT

This paper is about two related decision theoretic problems, nonparametric two-sample testing and independence testing. There is a belief that two recently proposed solutions, based on kernels and distances between pairs of points, behave well in high-dimensional settings. We identify different sources of misconception that give rise to the above belief. Specifically, we differentiate the hardness of estimation of test statistics from the hardness of testing whether these statistics are zero or not, and explicitly discuss a notion of "fair" alternative hypotheses for these problems as dimension increases. We then demonstrate that the power of these tests actually drops polynomially with increasing dimension against fair alternatives. We end with some theoretical insights and shed light on the extit{median heuristic} for kernel bandwidth selection. Our work advances the current understanding of the power of modern nonparametric hypothesis tests in high dimensions.

연구 동기 및 목표

  • 커널 및 거리 기반 비모수적 검정이 고차원 환경에서 잘 작동한다는 일반적인 믿음을 도전하기 위해.
  • 고차원 가설 검정에서 추정의 어려움과 검정의 어려움 사이의 구분을 명확히 하기 위해.
  • 차원에 따라 적절히 스케일링되는 '공정한 대안'을 정의하고 분석하여 의미 있는 검증력 평가를 보장하기 위해.
  • MMD 및 거리 상관계수 검정의 검증력이 증가하는 차원에 따라 다항식적으로 악화됨을 보여주기 위해.
  • 특히 중앙값 히ュ리스틱을 포함한 커널 대역폭 선택의 행동에 대한 이론적 및 실증적 통찰을 제공하기 위해.

제안 방법

  • 고차원에서 일정한 Kullback-Leibler 발산을 유지하기 위해 차원에 따라 스케일링되는 '공정한 대안'을 사용한 검정 검증력 평가 프레임워크를 제안한다.
  • 일반적인 분포 가정(정규분포, 라플라스 분포, 분산이 다른 정규분포) 하에서 MMD 및 거리 상관계수의 인구 수준 행동을 분석한다.
  • 테일러 근사와 渐近적 분석을 사용하여 다양한 대역폭 선택에 따른 MMD2의 닫힌 형태 표현식을 유도한다.
  • 세 가지 대역폭 영역에서 MMD2의 행동을 비교한다: 과소 추정, 중앙값 히ュ리스틱, 과대 추정.
  • 퍼미터테이션 검정을 사용하여 귀무분포를 추정하고 통제된 대안 하에서 검증력을 시뮬레이션한다.
  • 대규모 표본을 통한 MMD의 실증적 추정을 통해 이론적 근사치를 검증하여 渐近적 경향을 확인한다.

실험 결과

연구 질문

  • RQ1커널 및 거리 기반 비모수적 검정은 추정 오차가 낮음에도 불구하고 고차원에서 왜 검증력을 상실하는가?
  • RQ2고차원 이중표본 및 독립성 검정에서 '공정한 대안 가설'이란 무엇인가?
  • RQ3특히 중앙값 히ュ리스틱을 포함한 커널 대역폭 선택이 MMD 기반 검정의 검증력에 어떻게 영향을 미치는가?
  • RQ4KL 발산을 일정하게 유지함에도 불구하고 MMD 통계량이 왜 차원에 따라 다항식적으로 감소하는가?
  • RQ5MMD 및 거리 상관계수의 행동이 고차원 환경에서 어느 정도 유사한가?

주요 결과

  • KL 발산을 일정하게 유지함에도 불구하고 MMD2는 차원 d에 대해 다항식적으로 감소하며, 이는 1/d 또는 그 이하의 비율로 검증력 손실을 초래한다.
  • 등방향 공분산을 가진 평균이 분리된 정규분포의 경우, 중앙값 히ュ리스틱(γ ≈ σ√d) 하에서 MMD2는 1/d로 감소하며, 이는 KL 발산보다 다항식적으로 느리게 감소한다.
  • 대역폭이 과소 추정된 경우(γ = σd1/2−ϵ), MMD2는 exp(d2ϵ/2)의 속도로 지수적으로 빠르게 감소하여 KL보다 지수적으로 작아진다.
  • 라플라스 분포 자료의 경우 중앙값 히ュ리스틱은 MMD2를 exp(dϵ)로 지수적으로 감소시키며, 다시 한번 KL보다 지수적으로 작아진다.
  • 분산이 다른 정규분포의 경우, 과대 추정된 대역폭 하에서 MMD2는 1/d1+2ϵ로 감소하며, 여전히 KL 발산보다 느리게 감소한다.
  • 중심값 히ュ리스틱은 일반적으로 사용되지만, 고차원에서는 종종 최적의 MMD 값을 도출하지 못하며, 검정의 검증력을 최대화하지 못한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.