[论文解读] A New Approach to Hierarchical Data Analysis: Targeted Maximum Likelihood Estimation of Cluster-Based Effects Under Interference
本文提出了两种针对干扰情境下聚类水平暴露效应的靶向最大似然估计器(TMLE),其中个体结果因共享的聚类因素或社交/生物互动而相关。第一个估计器采用非参数模型以允许任意干扰,第二个估计器则假设聚类和个体水平的协变量足以控制混杂;模拟结果显示,假设子模型可能导致偏差,凸显了在估计过程中纳入工作假设而非假设其在真实因果模型中成立的优势。
We often seek to estimate the impact of an exposure naturally occurring or randomly assigned at the cluster-level. For example, the literature on neighborhood determinants of health continues to grow. Likewise, community randomized trials are applied to learn about real-world implementation, sustainability, and population effects of interventions with proven individual-level efficacy. In these settings, individual-level outcomes are correlated due to shared cluster-level factors, including the exposure, as well as social or biological interactions between individuals. To flexibly and efficiently estimate the effect of a cluster-level exposure, we present two targeted maximum likelihood estimators (TMLEs). The first TMLE is developed under a non-parametric causal model, which allows for arbitrary interactions between individuals within a cluster. These interactions include direct transmission of the outcome (i.e. contagion) and influence of one individual's covariates on another's outcome (i.e. covariate interference). The second TMLE is developed under a causal sub-model assuming the cluster-level and individual-specific covariates are sufficient to control for confounding. Simulations compare the alternative estimators and illustrate the potential gains from pairing individual-level risk factors and outcomes during estimation, while avoiding unwarranted assumptions. Our results suggest that estimation under the sub-model can result in bias and misleading inference in an observational setting. Incorporating working assumptions during estimation is more robust than assuming they hold in the underlying causal model. We illustrate our approach with an application to HIV prevention and treatment.
研究动机与目标
- 解决由于传染或协变量干扰等干扰导致个体结果相关时,估计聚类水平暴露效应的挑战。
- 开发一种灵活的非参数TMLE,以容纳聚类内任意互动,而无需施加限制性参数假设。
- 评估基于子模型的TMLE的性能,该子模型假设聚类和个体水平的协变量足以控制混杂。
- 在不同数据生成机制下,比较两种估计器的稳健性和效率。
- 通过HIV预防与治疗的应用,展示该方法的实用性。
提出的方法
- 开发一种非参数TMLE,灵活建模结果机制,允许聚类内个体之间存在任意干扰,包括直接传播和协变量干扰。
- 在因果子模型下构建第二个TMLE,假设聚类水平和个体特定的协变量足以控制混杂。
- 使用基于经验似然的估计方法以聚焦目标参数,确保双重稳健性和效率。
- 应用基于目标最小损失的估计(TMLE)原理,以最小化偏差的方式更新结果和处理机制的初始估计。
- 整合影响曲线推断方法,以实现有效的置信区间和假设检验。
- 在各种配置下进行模拟,以比较估计器性能,包括存在与不存在干扰以及不同程度混杂的情景。
实验结果
研究问题
- RQ1当聚类水平数据中存在干扰时,非参数TMLE与基于子模型的TMLE的性能如何比较?
- RQ2在观察性聚类研究中,假设子模型用于混杂控制对估计偏差有何影响?
- RQ3在估计过程中纳入关于混杂的工作假设,是否比假设其在真实因果模型中成立更能提高稳健性?
- RQ4当存在干扰时,个体水平的风险因素和结果如何影响估计效率?
- RQ5在聚类水平干预研究中忽略干扰有何影响,特别是在HIV预防等公共卫生应用中?
主要发现
- 当假设的混杂控制不正确时,即使模型正确设定,基于子模型的TMLE在观察性研究中仍可能产生有偏估计。
- 当存在未测量或建模不当的干扰时,基于子模型的估计会导致误导性推断。
- 在估计过程中纳入关于混杂的工作假设,比假设其在底层因果模型中成立更具稳健性。
- 非参数TMLE在较弱假设下提供有效推断,并且在干扰机制复杂或未知时仍表现良好。
- 模拟结果表明,在估计过程中结合个体水平风险因素和结果可提高效率并减少偏差。
- 在HIV预防与治疗中的应用表明,该方法在具有复杂干扰模式的真实公共卫生场景中具有实际相关性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。