Skip to main content
QUICK REVIEW

[논문 리뷰] Wilcoxon Rank-Based Tests for Clustered Data with R Package clusrank

Yujing Jiang, Xin He|arXiv (Cornell University)|2017. 06. 11.
Data-Driven Disease Surveillance참고 문헌 5인용 수 35
한 줄 요약

이 논문은 클러스터링된 데이터를 위한 현대적인 순위 기반 비모수적 검정을 구현하는 R 패키지 clusrank를 소개한다. 주로 Wilcoxon 순위합 검정과 부호 순위 검정을 대상으로 하며, 두 가지 주요 접근 방식인 RGL 방법(Rosner 등, 2003)과 DS 방법(Datta & Satten, 2008)을 사용한다. 이 패키지는 정확한 순열 검정을 지원하며, 정보가 있는 클러스터 크기와 교환 가능하지 않은 상관관계를 포함한 다양한 클러스터 구조를 다룰 수 있는 통합적이고 사용자 友好的 인터페이스를 제공한다.

ABSTRACT

Wilcoxon Rank-based tests are distribution-free alternatives to the popular two-sample and paired t-tests. For independent data, they are available in several R packages such as stats and coin. For clustered data, in spite of the recent methodological developments, there did not exist an R package that makes them available at one place. We present a package clusrank where the latest developments are implemented and wrapped under a unified user-friendly interface. With different methods dispatched based on the inputs, this package offers great flexibility in rank-based tests for various clustered data. Exact tests based on permutations are also provided for some methods. Details of the major schools of different methods are briefly reviewed. Usages of the package clusrank are illustrated with simulated data as well as a real dataset from an ophthalmological study. The package also enables convenient comparison between selected methods under settings that have not been studied before and the results are discussed.

연구 동기 및 목표

  • 클러스터링된 데이터를 위한 현대적인 순위 기반 검정을 통합적으로 제공하는 중심적이고 사용자 友好的 R 패키지의 부재를 보완하기 위해.
  • 최근의 Wilcoxon 유형 검정에 대한 방법론적 진전을 하나의 접근하기 쉬운 인터페이스로 통합하기 위해.
  • 다양한 상관관계 및 클러스터 크기 가정 하에 이원 검정 순위합 검정과 쌍체 부호 순위 검정을 모두 지원하기 위해.
  • 작은 표본에서 유의수준 제어를 향상시키기 위해 정확한 순열 기반 추론을 제공하기 위해.
  • 이전에 연구되지 않은 새로운 데이터 설정에서 다양한 방법의 비교 평가를 가능하게 하기 위해.

제안 방법

  • 교환 가능성과 공통된 클러스터 내 상관관계 하에서 Wilcoxon 순위합 통계량의 분산을 조정하는 RGL 방법(Rosner 등, 2003)을 구현한다.
  • 클러스터 내 재표본 추출을 사용하여 정보가 있는 클러스터 크기와 비교환 가능한 의존성을 다루는 DS 방법(Datta & Satten, 2008)을 통합한다.
  • 점근적 추론과 순열 기반 추론을 모두 지원하며, 정확한 p-값은 몬테카를로 재표본 추출을 통해 계산한다.
  • 통일된 함수 인터페이스를 사용하여 입력 데이터 구조와 사용자 설정에 따라 순위합 검정과 부호 순위 검정으로 자동 분류한다.
  • 모의 실험과 실제 데이터 평가에서 비균형 클러스터 크기, 분류, AR1 상관관계 구조를 처리한다.
  • 랜덤 클러스터 크기와 비교환 가능 상관관계를 포함한 설정에서 동일한 시뮬레이션 조건 하에 여러 방법을 비교할 수 있도록 한다.

실험 결과

연구 질문

  • RQ1AR1와 같은 다양한 클러스터 내 상관관계 구조 하에서 RGL 및 DS 방법의 경험적 유의수준 오류율은 어떻게 되는가?
  • RQ2정보가 있는 클러스터 크기가 클러스터링된 데이터에 대한 순위 기반 검정의 성능에 어떤 영향을 미치는가?
  • RQ3클러스터 크기가 증가하고 클러스터 내 상관계수가 감소할수록 RGL 및 DS 방법의 검정력은 어떻게 변화하는가?
  • RQ4작은 표본 및 복잡한 상관관계 구조 하에서 clusrank 내 정확한 순열 검정이 명목 수준을 유지할 수 있는가?
  • RQ5표준 가정이 적용되지 않는 랜덤 클러스터 크기와 비교환 가능 의존성 설정에서 두 방법은 어떻게 비교되는가?

주요 결과

  • AR1 상관관계에서 교환 가능성 가정이 위반되었음에도 불구하고, RGL 및 DS 방법의 경험적 유의수준 오류율은 모든 시뮬레이션 설정에서 명목 수준 0.05에 매우 가까웠다.
  • 클러스터 크기가 커지고 클러스터 내 상관계수가 낮아질수록 검정력이 증가했으며, 유사 조건 하에서 두 방법 간 성능이 유사했다.
  • DS 방법은 클러스터 크기가 쌍체 차이 분포에 영향을 주는 정보가 있는 클러스터 크기 조건에서도 유효한 유의수준 제어를 유지했다.
  • RGL 방법은 고정된 평균 클러스터 크기 대비 완전히 랜덤한 클러스터 크기 조건에서 약간의 검정력 감소를 보였지만, 크기 제어 측면에선 강인했다.
  • 순열 기반 추론은 특히 작은 표본 설정에서 정확한 p-값을 제공했으며, 경험적 크기 값이 명목 수준과 밀접하게 일치했다.
  • 실제 안과 데이터 분석에서 clusrank 패키지는 치료군 간 시력 결과의 유의미한 차이를 성공적으로 탐지하여 실용적 유용성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.