[论文解读] Estimation Of Menarcheal Age Distribution From Imperfectly Recalled Data
本文提出一种统计模型,利用分层横断面调查数据中因记忆衰退导致的不完全回忆,估计初潮年龄的分布。通过多项式回归建模回忆概率随初潮以来时间的变化关系,该方法考虑了因记忆衰退导致的信息性删失,并提供了参数与非参数估计器。模拟结果表明,当纳入部分回忆数据时,生存函数估计的精确度得到提升。
In a cross-sectional study, adolescent and young adult females were asked to recall the time of menarche, if experienced. Some respondents recalled the date exactly, some recalled only the month or the year of the event, and some were unable to recall anything. We consider estimation of the menarcheal age distribution from this interval censored data. A~complicated interplay between age-at-event and calendar time, together with the evident fact of memory fading with time, makes the censoring informative. We propose a model where the probabilities of various types of recall would depend on the time since menarche. For parametric estimation we model these probabilities using multinomial regression function. Establishing consistency and asymptotic normality of the parametric MLE requires a bit of tweaking of the standard asymptotic theory, as the data format varies from case to case. We also provide a non-parametric MLE, propose a computationally simpler approximation, and establish the consistency of both these estimators under mild conditions. We study the small sample performance of the parametric and non-parametric estimators through Monte Carlo simulations. Moreover, we provide a graphical check of the assumption of the multinomial model for the recall probabilities, which appears to hold for the menarcheal data set. Our analysis shows that the use of the partially recalled part of the data indeed leads to smaller confidence intervals of the survival function.
研究动机与目标
- 解决在调查受访者对初潮时间回忆不完整或不准确时,估计初潮年龄分布的挑战。
- 建模回忆准确性对初潮以来时间的依赖关系,认识到记忆会随时间衰退。
- 在信息性删失条件下,为初潮年龄的生存函数开发一致且渐近正态的估计量。
- 通过蒙特卡洛模拟评估参数与非参数估计量的性能。
- 为实际数据提供一种图形化检验方法,以评估多项式回忆概率模型假设的合理性。
提出的方法
- 使用多项式回归框架建模回忆概率,其中回忆确切日期、月份、年份或无记忆的概率取决于初潮以来的时间。
- 提出一种参数最大似然估计量(MLE),用于初潮年龄分布,通过回忆模型调整信息性删失。
- 通过针对特定案例数据格式的修正渐近理论,证明参数MLE的一致性与渐近正态性。
- 在相同回忆模型下,为生存函数开发非参数MLE,并在较弱正则性条件下确保其一致性。
- 提出一种计算更简便的非参数估计量近似方法,以利于实际应用。
- 提供一种图形化诊断工具,用于评估经验数据中多项式回忆模型假设的合理性。
实验结果
研究问题
- RQ1当回忆数据为区间删失且受随时间变化的记忆衰退影响时,如何估计初潮年龄分布?
- RQ2纳入部分回忆数据在多大程度上能提高生存函数估计的精确度?
- RQ3回忆概率的多项式模型假设在真实初潮数据中是否具有经验有效性?
- RQ4所提出的参数与非参数估计量在小样本下的有限样本性质如何?
- RQ5标准渐近理论应如何调整以处理此估计问题中的案例特定数据格式?
主要发现
- 与仅使用精确回忆数据的分析相比,纳入部分回忆数据可使生存函数的置信区间更窄。
- 参数MLE具有一致性与渐近正态性,其理论依据需对标准渐近理论进行调整,以应对数据格式异质性。
- 在较弱正则性条件下,非参数MLE也具有一致性,为参数假设提供稳健替代方案。
- 蒙特卡洛模拟显示,参数与非参数估计量在小样本下均表现良好。
- 针对多项式回忆模型假设的图形化检验表明,该模型对经验初潮数据的拟合程度合理。
- 所提出的模型能有效处理因记忆衰退导致的信息性删失,相比朴素方法显著提升估计准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。