QUICK REVIEW

[论文解读] Nonparametric inference for P(X < Y ) with paired variables

José António Frias Montoya, Francisco J. Rubio|arXiv (Cornell University)|Mar 9, 2021

Statistical Methods and Inference参考文献 23被引用 1

一句话总结

本文提出了两种针对配对的、依赖的连续型随机变量 P(X < Y) 的非参数估计量，分别基于联合 (X,Y) 分布的核密度估计或差值 Z = Y−X 的密度估计。该方法避免了参数假设，使用自助法构建置信区间，并通过模拟和真实黑色素瘤数据示例表明，忽略配对关系会导致误导性推断，因为依赖性显著影响 θ 的估计值和区间。

ABSTRACT

We propose two classes of nonparametric point estimators of θ = P (X < Y ) in the case where (X, Y ) are paired, possibly dependent, absolutely continuous random variables.The proposed estimators are based on nonparametric estimators of the joint density of (X, Y ) and the distribution function of Z = Y -X.We explore the use of several density and distribution function estimators and characterise the convergence of the resulting estimators of θ.We consider the use of bootstrap methods to obtain confidence intervals.The performance of these estimators is illustrated using simulated and real data.These examples show that not accounting for pairing and dependence may lead to erroneous conclusions about the relationship between X and Y .

研究动机与目标

开发 P(X < Y) 的非参数估计量，不假设配对依赖随机变量之间的独立性或特定参数分布。
解决现有方法假设独立性所带来的局限性，因为在存在依赖性时，该假设会导致错误推断。
提供一种灵活且易于实现的方法，利用现有的 R 包进行密度估计和自助重抽样。
通过模拟和真实数据表明，忽略配对和依赖性会导致关于 X 和 Y 关系的错误结论。

提出的方法

提出两类非参数估计量：一类基于 (X,Y) 的双变量核密度估计，另一类基于 Z = Y−X 的单变量密度估计。
使用非参数密度估计器（如核密度、最大似然估计、平滑最大似然估计）对联合分布或差值分布进行估计，以计算 θ = P(X < Y)。
通过对区域 x < y 进行双重积分，从联合密度估计中计算估计量。
采用自助重抽样（正态法、基本法、百分位法、BCa 法）构建 θ 的置信区间，利用估计量的非参数特性。
将核密度估计与所提出的框架相结合，可在 R 中使用标准包实现实际应用。
刻画在各种非参数密度估计方法下估计量的渐近性质。

实验结果

研究问题

RQ1当 X 和 Y 为配对且依赖的随机变量时，如何在不假设特定参数模型的前提下，非参数地估计 P(X < Y)？
RQ2在依赖性存在的情况下，非参数密度估计器（如核密度、MLE、SMLE）在估计 P(X < Y) 时的表现如何？
RQ3基于这些估计器的自助置信区间在不同估计方法下的覆盖概率和精度如何比较？
RQ4忽略配对和依赖性在多大程度上会导致关于 P(X < Y) 的错误推断？
RQ5所提出的估计量是否可以使用现有的 R 包以最少的代码实现？

主要发现

在模拟数据中，忽略配对关系导致置信区间包含 θ = 0.5，表明 X 和 Y 无差异；而配对估计量显示 θ ≈ 0.65，置信区间窄且不重叠。
在黑色素瘤数据中，独立性假设得到点估计 θ = 0.55，95% 自助置信区间为 (0.474, 0.691)，包含 0.5，表明无显著差异；而配对估计量给出 θ = 0.55，置信区间更窄（0.499, 0.598），表明存在显著差异。
经验累积分布函数（ECDF）估计器得到更高的 θ 估计值（0.69）和更宽的置信区间，表明其效率低于基于核密度或 MLE 的估计器。
平滑估计器（如 SMLE、核密度）在区间精度和覆盖概率方面优于经验分布函数（ECDF），尤其是在配对设定下。
基于配对估计量的自助置信区间始终比基于独立性假设的区间更窄、更可靠，凸显了建模依赖性的重要性。
所提出的基于非参数密度估计和自助法的方法在 R 中易于实现，且估计量具有有利的渐近性质。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。