QUICK REVIEW

[論文レビュー] Nonparametric inference for P(X < Y ) with paired variables

José António Frias Montoya, Francisco J. Rubio|arXiv (Cornell University)|Mar 9, 2021

Statistical Methods and Inference参考文献 23被引用数 1

ひとこと要約

本稿では、対応する従属的な連続確率変数 X と Y に対して、P(X < Y) を非パラメトリックに推定する2つの推定量を提案する。両変数の連関分布のカーネル密度推定または差分 Z = Y−X の推定に基づく。この手法はパラメトリックな仮定を回避し、信頼区間にはブートストラップを用いる。シミュレーションおよびメラノーマの実データ例を通じて、対応を無視すると誤った推論に至ることを示しており、従属性が θ の推定値および信頼区間に顕著な影響を与えることが明らかになった。

ABSTRACT

We propose two classes of nonparametric point estimators of θ = P (X < Y ) in the case where (X, Y ) are paired, possibly dependent, absolutely continuous random variables.The proposed estimators are based on nonparametric estimators of the joint density of (X, Y ) and the distribution function of Z = Y -X.We explore the use of several density and distribution function estimators and characterise the convergence of the resulting estimators of θ.We consider the use of bootstrap methods to obtain confidence intervals.The performance of these estimators is illustrated using simulated and real data.These examples show that not accounting for pairing and dependence may lead to erroneous conclusions about the relationship between X and Y .

研究の動機と目的

対応する従属的な確率変数に対して、独立性や特定のパラメトリック分布の仮定をしない P(X < Y) の非パラメトリック推定量を開発すること。
独立性を仮定する既存の手法の限界を是正すること。従属性が存在する状況で独立性を仮定すると誤った推論に至る可能性がある。
密度推定とブートストラップリサンプリングに既存の R パッケージを活用した、実装にやさしい柔軟なアプローチを提供すること。
シミュレーションおよび実データを通じて、対応を無視し、従属性を無視すると P(X < Y) に関する関係について誤った結論に至ることを示すこと。

提案手法

2種類の非パラメトリック推定量のクラスを提案する：1つは (X,Y) の二次元カーネル密度推定に基づくもの、もう1つは Z = Y−X の単変量密度推定に基づくもの。
連関分布または差分分布の非パラメトリック密度推定量（例：カーネル推定、MLE、SMLE）を用いて、θ = P(X < Y) を推定する。
密度推定値の領域 x < y における二重積分を用いて推定量を計算する。
ブートストラップリサンプリング（正規、基本、百分位、BCa）を用いて、θ の信頼区間を構築する。推定量の非パラメトリック性を活用する。
カーネル密度推定を本フレームワークと組み合わせ、標準的な R パッケージを用いた実用的実装を可能にする。
さまざまな非パラメトリック密度推定法における推定量の漸近的性質を特徴づける。

実験結果

リサーチクエスチョン

RQ1X と Y が対応し、従属的であるが、特定のパラメトリックモデルを仮定しない状況で、P(X < Y) をどのように非パラメトリックに推定できるか？
RQ2従属性が存在する状況下で、非パラメトリック密度推定量（例：カーネル、MLE、SMLE）が P(X < Y) をどの程度正確に推定できるか？
RQ3これらの推定量に基づくブートストラップ信頼区間は、さまざまな推定法において、カバレッジと精度の点でどのように比較できるか？
RQ4対応や従属性を無視すると、P(X < Y) に関する誤った結論に至る可能性はどの程度高いか？
RQ5提案された推定量は、最小限のコードで既存の R パッケージを用いて実装可能か？

主な発見

シミュレーションデータにおいて、対応を無視した場合、信頼区間は θ = 0.5 を含む結果となり、X と Y の間に差がないことを示唆した。一方、対応に基づく推定量では θ ≈ 0.65 となり、狭く重複しない信頼区間が得られた。
メラノーマデータでは、独立性を仮定した場合、点推定値は θ = 0.55 で、95％ブートストラップ信頼区間 (0.474, 0.691) が 0.5 を含むため、差がないと示唆された。一方、対応推定量では θ = 0.55 で、より狭い信頼区間 (0.499, 0.598) が得られ、差が有意であることを示唆した。
ECDFに基づく推定量は θ の推定値を 0.69 と高く出し、信頼区間も広がった。これは、カーネル推定や MLE に基づく推定量に比べ、非効率であることを示唆している。
スムージング推定量（例：SMLE、カーネル）は、経験分布関数（ECDF）に比べ、区間の精度とカバレッジの点で優れており、特に対応設定下で顕著であった。
対応に基づく推定量のブートストラップ信頼区間は、独立性を仮定した場合のものよりも一貫して狭く、信頼性が高かった。これは、従属性をモデル化することが重要であることを強調している。
非パラメトリック密度推定とブートストラップを組み合わせた本手法は、R で容易に実装可能であり、良好な漸近的性質を持つ推定量を生成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。