Skip to main content
QUICK REVIEW

[논문 리뷰] Selective inference for k-means clustering

Yiqun T. Chen, Daniela Witten|PubMed|2022. 03. 29.
Single-cell and spatial transcriptomics참고 문헌 30인용 수 23
한 줄 요약

이 논문은 k-means로 식별된 두 군집 간의 평균 차이를 테스트하기 위한 유한 표본 선택적 추론 p-값을 개발하여 데이터 분할 없이 선택적 제1종 오류를 제어합니다.

ABSTRACT

We consider the problem of testing for a difference in means between clusters of observations identified via <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML"><mml:mi>k</mml:mi></mml:math>-means clustering. In this setting, classical hypothesis tests lead to an inflated Type I error rate. In recent work, Gao et al. (2022) considered a related problem in the context of hierarchical clustering. Unfortunately, their solution is highly-tailored to the context of hierarchical clustering, and thus cannot be applied in the setting of <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML"><mml:mi>k</mml:mi></mml:math>-means clustering. In this paper, we propose a p-value that conditions on all of the intermediate clustering assignments in the <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML"><mml:mi>k</mml:mi></mml:math>-means algorithm. We show that the p-value controls the selective Type I error for a test of the difference in means between a pair of clusters obtained using <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML"><mml:mi>k</mml:mi></mml:math>-means clustering in finite samples, and can be efficiently computed. We apply our proposal on hand-written digits data and on single-cell RNA-sequencing data.

연구 동기 및 목표

  • 데이터 기반 클러스터링으로 정의된 군집 간의 평균 차이 테스트를 동기 부여한다.
  • 클러스터 기반 가설을 검정할 때의 제1종 오류 증가 문제를 다룬다.
  • k-means 클러스터링에 대한 유한 표본 선택적 추론 프레임워크를 개발한다.
  • 클러스터링 결과를 조건으로 정확한 p-값 계산을 제공한다.

제안 방법

  • 영가설 H0: μ^T ν = 0를 설정하여 k-means에서 추정된 두 군집 간의 차이를 검정한다.
  • k-means 알고리즘으로 생성된 전체 군집 경로를 조건으로 하는 선택적 p-값 p_selective를 개발한다.
  • p_selective가 스케일링된 χ_q 변수의 생존 함수의 S_T로 잘려진 형태임을 보인다.
  • 확장: whitening 또는 알려진 Σ를 이용한 비구형 공분산 확장, 조정된 p-값 p_{Σ,selective}를 제공한다.
  • 미지의 분산 σ를 다루기 위해 일관 추정기를 사용하고 대응하는 조정된 p-값을 제공한다.
  • R 패키지 KmeansInference에 구현하고 재현 가능한 코드를 제공한다.

실험 결과

연구 질문

  • RQ1k-means로 얻은 군집 간 평균 차이를 테스트하기 위해 유한 표본의 선택적 추론 기반 p-값을 구성할 수 있는가?
  • RQ2H0 아래에서 전체 k-means 클러스터링 경로를 조건화하면 선택적 제1종 오류를 제어하는가?
  • RQ3선택적 p-값을 효율적으로 계산할 수 있는가, 비구형 공분산 구조 및 미지 분산으로 확장되는가?
  • RQ4실제 데이터 세트(예: 손글씨 숫자, 단일세포 RNA-seq)에서 클러스터링 후 유효한 추론에 실용적으로 적용 가능한가?

주요 결과

  • 군집화를 무시하는 순진한 검정은 제1종 오류를 증가시킨다.
  • 제안된 p_selective가 선택적 제1종 오류를 α 수준에서 제어한다.
  • p-값은 스케일된 χ_q 변수의 잘려진 생존 함수로 계산될 수 있으며, S_T의 특성화가 필요하다.
  • 확장은 whitening 또는 알려진 Σ를 통해 비구형 공분산을 허용하며, 보정된 p_{Σ,selective}를 제공한다.
  • 미지의 σ는 일관 추정기로 수용하여 점진적 선택적 제1종 오류 제어를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.