QUICK REVIEW

[논문 리뷰] Learning Kernel Tests Without Data Splitting

Jonas M. Kübler, Wittawat Jitkrittum|arXiv (Cornell University)|2020. 06. 01.

Geophysical Methods and Applications인용 수 6

한 줄 요약

이 논문은 데이터 분할 없이 전체 데이터셋에서 커널 초파rameter를 학습하고 커널 검정을 수행할 수 있도록 선택적 추론 기반 방법을 제안한다. 이는 더 높은 검정력 확보를 가능하게 한다. 테스트 임계값을 닫힌 형태로 校정함으로써, 모든 분할 비율에서 데이터 분할 방법보다 높은 경험적 검정력을 확보하면서도 타입 I 오류 제어를 유지한다.

ABSTRACT

Modern large-scale kernel-based tests such as maximum mean discrepancy (MMD) and kernelized Stein discrepancy (KSD) optimize kernel hyperparameters on a held-out sample via data splitting to obtain the most powerful test statistics. While data splitting results in a tractable null distribution, it suffers from a reduction in test power due to smaller test sample size. Inspired by the selective inference framework, we propose an approach that enables learning the hyperparameters and testing on the full sample without data splitting. Our approach can correctly calibrate the test in the presence of such dependency, and yield a test threshold in closed form. At the same significance level, our approach's test power is empirically larger than that of the data-splitting approach, regardless of its split proportion.

연구 동기 및 목표

데이터 분할을 통한 초파rameter 조정으로 인한 커널 기반 가설 검정의 검정력 손실 문제를 해결하기 위해.
모든 데이터셋에서 초파라미터 학습과 검정을 수행할 수 있는 방법을 개발하여 표본 크기 감소를 방지하기 위해.
동일한 데이터에서 초파라미터 학습으로 인한 종속성에도 불구하고, 검정 통계량에 대해 유효한 닫힌 형태의 임계값을 제공하기 위해.
모든 분할 비율에서 데이터 분할 방법보다 경험적 검정력을 향상시키기 위해.

제안 방법

선택적 추론 프레임워크를 커널 검정에 적응시켜, 초파라미터 선택을 모델 선택 이벤트로 간주하기 위해.
선택된 커널 초파라미터에 조건화된 귀무분포를 고려하여, 데이터 재사용에도 불구하고 유효한 p-값을 확보하기 위해.
초파라미터 선택을 고려한 검정 통계량의 닫힌 형태 표현식을 유도하기 위해.
최대 평균 차이(MMD) 및 커널화된 스팀 불일치도(KSD) 검정에 이 방법을 적용하기 위해.
모든 데이터셋을 초파라미터 학습과 통계량 계산에 모두 사용하여 표본 분할을 제거하기 위해.

실험 결과

연구 질문

RQ1동일한 데이터에서 초파라미터를 학습하고 검정을 수행함에도 불구하고 타입 I 오류 제어를 손상시키지 않고 전체 데이터셋에서 커널 초파라미터를 학습하고 커널 검정을 수행할 수 있는가?
RQ2다양한 분할 비율에서 제안된 방법의 검정력은 데이터 분할 방법과 비교해 어떻게 되는가?
RQ3동일한 데이터에서 초파라미터를 학습한 경우, 검정 통계량에 대해 닫힌 형태의 임계값을 유도할 수 있는가?
RQ4초파라미터 선택과 검정 통계량 간의 종속성에도 불구하고, 이 방법은 유효한 추론을 유지하는가?

주요 결과

제안된 방법은 동일한 유의수준에서 분할 비율에 관계없이 데이터 분할보다 더 높은 경험적 검정력을 확보한다.
이 방법은 검정 통계량에 대해 닫힌 형태의 임계값을 제공하여 효율적이고 정확한 추론을 가능하게 한다.
타입 I 오류 비율이 잘 제어되어 선택적 추론 校정의 타당성을 입증한다.
이 방법은 데이터 분할이 필요 없게 되어, 검정에 사용 가능한 모든 데이터를 유지할 수 있게 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.