[论文解读] Wilcoxon Rank-Based Tests for Clustered Data with R Package clusrank
本文介绍了 R 包 clusrank,该包实现了针对聚类数据的现代基于秩次的非参数检验——具体为 Wilcoxon 秩和检验与符号秩和检验——采用两种主要方法:RGL 方法(Rosner 等,2003)和 DS 方法(Datta & Satten,2008)。该包提供了一个统一、用户友好的接口,支持精确置换检验,并可处理各种聚类结构,包括具有信息性聚cluster大小和非可交换相关性的聚类结构。
Wilcoxon Rank-based tests are distribution-free alternatives to the popular two-sample and paired t-tests. For independent data, they are available in several R packages such as stats and coin. For clustered data, in spite of the recent methodological developments, there did not exist an R package that makes them available at one place. We present a package clusrank where the latest developments are implemented and wrapped under a unified user-friendly interface. With different methods dispatched based on the inputs, this package offers great flexibility in rank-based tests for various clustered data. Exact tests based on permutations are also provided for some methods. Details of the major schools of different methods are briefly reviewed. Usages of the package clusrank are illustrated with simulated data as well as a real dataset from an ophthalmological study. The package also enables convenient comparison between selected methods under settings that have not been studied before and the results are discussed.
研究动机与目标
- 为解决缺乏一个集中化、用户友好的 R 包来实现聚类数据的现代基于秩次检验的问题。
- 将近期在聚类数据的 Wilcoxon 类检验方法上的进展统一在一个单一、易用的接口下。
- 在各种相关性和聚cluster大小假设下,支持两样本秩和检验与配对符号秩和检验。
- 为小样本提供基于精确置换的推断,以改善第一类错误控制。
- 在以往未被研究过的新数据设置下,支持对不同方法的比较评估。
提出的方法
- 实现 RGL 方法(Rosner 等,2003),该方法在满足交换性和共同聚内相关性条件下,对 Wilcoxon 秩和统计量的方差进行校正。
- 整合 DS 方法(Datta & Satten,2008),该方法通过聚内重采样处理信息性聚cluster大小和非可交换依赖关系。
- 支持渐近推断和基于置换的推断,精确 p 值通过蒙特卡洛重采样计算。
- 使用统一的函数接口,根据输入数据结构和用户指定,自动分派至秩和检验或符号秩和检验。
- 在模拟和真实数据评估中,支持不等聚cluster大小、分层结构和 AR1 相关性结构。
- 在相同模拟条件下支持多种方法的比较,包括具有随机聚cluster大小和非可交换相关性的设置。
实验结果
研究问题
- RQ1在各种聚内相关性结构(包括 AR1)下,RGL 和 DS 方法在经验第一类错误率方面的表现如何?
- RQ2信息性聚cluster大小对基于秩次的聚类数据检验性能有何影响?
- RQ3随着聚cluster大小增加和聚内相关性降低,RGL 和 DS 方法的统计功效如何变化?
- RQ4在小样本和复杂相关性结构下,cluskrank 内部的精确置换检验能否保持名义显著性水平?
- RQ5在具有随机聚cluster大小和非可交换依赖性的设置下,两种方法的表现如何比较?这些情况未被标准假设覆盖。
主要发现
- 在所有模拟设置下,包括在违反交换性假设的 AR1 相关性下,RGL 和 DS 方法的经验第一类错误率均保持在接近名义水平 0.05 的范围内。
- 经验功效随聚cluster大小增加和聚内相关性降低而提高,两种方法在相似条件下表现出相近的性能。
- DS 方法在信息性聚cluster大小下仍能保持有效的第一类错误控制,即使聚cluster大小影响配对差异的分布。
- 与固定均值聚cluster大小相比,RGL 方法在完全随机聚cluster大小下功效略有降低,但其大小控制仍具稳健性。
- 基于置换的推断提供了准确的 p 值,尤其在小样本设置下,经验大小与名义水平非常接近。
- 在真实的眼科数据中,cluskrank 包成功检测到不同治疗组之间视力结果的显著差异,展示了其实际应用价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。