Skip to main content
QUICK REVIEW

[논문 리뷰] Optimal nonparametric testing of Missing Completely At Random and its connections to compatibility

Thomas B Berrett, Richard J. Samworth|arXiv (Cornell University)|2022. 05. 17.
Advanced Statistical Methods and Models인용 수 1
한 줄 요약

이 논문은 Missing Completely At Random (MCAR)에 대한 최적의 비모수적 검정을 개발하며, 문제를 Fréchet 클래스 호환성과 선형 프로그래밍에 연결한다. 불일치 지수 R(PS)를 도입하여 탐지 가능성을 정량화하고, 로그 요소를 제외한 최소최대 분리율을 달성하는 검정을 증명하며, 선형 프로그래밍을 통한 정확한 계산을 제공한다. 이는 이산 데이터에 대한 MCAR 가정 하에서 R 패키지 MCARtest에 구현되어 있다.

ABSTRACT

Given a set of incomplete observations, we study the nonparametric problem of testing whether data are Missing Completely At Random (MCAR). Our first contribution is to characterise precisely the set of alternatives that can be distinguished from the MCAR null hypothesis. This reveals interesting and novel links to the theory of Fr\'echet classes (in particular, compatible distributions) and linear programming, that allow us to propose MCAR tests that are consistent against all detectable alternatives. We define an incompatibility index as a natural measure of ease of detectability, establish its key properties, and show how it can be computed exactly in some cases and bounded in others. Moreover, we prove that our tests can attain the minimax separation rate according to this measure, up to logarithmic factors. Our methodology does not require any complete cases to be effective, and is available in the R package MCARtest.

연구 동기 및 목표

  • MCAR 귀무가설 하에서 통계적으로 탐지 가능한 대립가설의 집합을 규명하는 것.
  • MCAR 검정과 Fréchet 클래스 이론 및 분포 호환성 이론 사이의 정밀한 연결 고리를 설정하는 것.
  • 유한 표본에서 제1종 오류를 통제하고, 모든 탐지 가능한 대립가설에 대해 일致하는 비모수적 검정을 개발하는 것.
  • 불일치 지수 R(PS)를 정의하고 계산하여 MCAR 위반의 탐지 가능성을 측정하는 것.
  • 제안된 검정이 로그 요소를 제외한 최소최대 분리율을 달성함을 증명하는 것.

제안 방법

  • 이 방법은 Kellerer(1984)의 이중성 정리를 활용하여 연합 분포의 호환성을 특성화함으로써, 불일치 검정을 가능하게 한다.
  • 불일치 지수 R(PS)는 타당 영역 위에서 선형 함수의 최대값으로 정의되며, 선형 프로그래밍을 통해 정확하게 계산할 수 있다.
  • 이산 데이터의 경우, 관측 패턴 하에서의 경험적 주변분포로부터 검정 통계량을 유도하며, 정확한 제1종 오류 통제가 가능하다.
  • 이 접근법은 계산 기하학 알고리즘을 활용하여 R(PS)에 대한 해석적 표현을 도출하며, 이는 이진 경우에 특히 다루기 쉬운 편이다.
  • 연속 설정을 근사하기 위해 이산화 기법을 도입하였으며, 상자 크기가 줄어들수록 수렴 보장을 갖는다.
  • 검정은 R 패키지 MCARtest에 구현되어 있으며, 다양한 구성에서 R(PS)의 정확한 계산과 경계를 지원한다.

실험 결과

연구 질문

  • RQ1부분적으로 손실된 데이터가 주어졌을 때, MCAR의 어떤 대안이 통계적으로 탐지 가능한가?
  • RQ2공식적인 불일치 측도를 사용하여 MCAR 위반의 탐지 가능성을 어떻게 정량화할 수 있는가?
  • RQ3모수적 가정 없이, 유한 표본에서 제1종 오류를 통제하고 모든 탐지 가능한 대안에 대해 일치하는 MCAR 검정을 구성할 수 있는가?
  • RQ4MCAR 위반을 탐지하는 최적의 분리율은 무엇이며, 이 검정이 그 값을 달성할 수 있는가?
  • RQ5불일치 지수 R(PS)는 최소최대 탐지 속도와 어떻게 관련이 있는가?

주요 결과

  • MCAR에 대한 탐지 가능한 대안의 집합은 관측된 주변분포가 Fréchet 의미에서 불일치할 때 정확히 일치한다.
  • 불일치 지수 R(PS)는 선형 함수의 최대값으로 정의되며, 탐지 가능성에 대한 자연스러운 측도로 기능한다.
  • R(PS)의 정확한 계산은 선형 프로그래밍을 통해 가능하며, 정확한 계산이 불가능한 경우 경계값도 제공된다.
  • 제안된 검정은 최소최대 분리율을 로그 요소를 제외한 수준에서 달성하며, d=3 및 특정 알파벳 크기에 대해 최소최대 하한선을 통해 이를 입증하였다.
  • d=3이고 |X1|=r, |X2|=s, |X3|=2인 경우, 검정은 r, s 및 표본 크기에 대해 로그 요소를 제외한 최적의 분리율을 달성한다.
  • 이 방법은 완전한 케이스가 필요로 하지 않으며, R 패키지 MCARtest에 구현되어 있어 R(PS)의 정확한 계산과 근사 계산을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.