[论文解读] Optimally estimating the sample mean and standard deviation from the five-number summary
本文提出了一种基于五数概括(中位数、四分位数、最小值、最大值)和样本量信息的平滑加权估计量,用于样本标准差估计,通过改进最优权重的近似公式和提出一种快捷估计量,显著优于现有方法在正态和非正态数据下的表现,并提供了适用于元分析的实用工具(Excel 和在线计算器)。
When reporting the results of clinical studies, some researchers may choose the five-number summary (including the sample median, the first and third quartiles, and the minimum and maximum values) rather than the sample mean and standard deviation, particularly for skewed data. For these studies, when included in a meta-analysis, it is often desired to convert the five-number summary back to the sample mean and standard deviation. For this purpose, several methods have been proposed in the recent literature and they are increasingly used nowadays. In this paper, we propose to further advance the literature by developing a smoothly weighted estimator for the sample standard deviation that fully utilizes the sample size information. For ease of implementation, we also derive an approximation formula for the optimal weight, as well as a shortcut formula for the sample standard deviation. Numerical results show that our new estimator provides a more accurate estimate for normal data and also performs favorably for non-normal data. Together with the optimal sample mean estimator in Luo et al., our new methods have dramatically improved the existing methods for data transformation, and they are capable to serve as rules of thumb in meta-analysis for studies reported with the five-number summary. Finally for practical use, an Excel spreadsheet and an online calculator are also provided for implementing our optimal estimators.
研究动机与目标
- 解决在临床研究中,当数据偏斜时,从五数概括估计样本均值和标准差的挑战。
- 通过更有效地利用样本量信息改进现有标准差估计方法。
- 开发一种平滑加权估计量,以最优方式平衡五数概括与样本量信息。
- 提供实用、用户友好的工具,如 Excel 电子表格和在线计算器,以支持元分析中的实施。
- 建立一种稳健的、经验法则式的方法,将五数概括转化为可用的均值和标准差估计。
提出的方法
- 提出一种平滑加权标准差估计量,整合五数概括与样本量信息。
- 推导出用于平衡四分位距与样本量之间关系的最优权重近似公式,以提升估计准确性。
- 引入一种标准差的快捷公式,简化实现过程而不损失精度。
- 通过数值模拟验证估计量在各种分布(包括正态和非正态数据)下的性能。
- 将所提出的标准差估计量与 Luo 等人提出的最优均值估计量相结合,形成完整的转换框架。
- 提供 Excel 电子表格和在线计算器,以实现实时应用所提出的估计量于元分析场景中。
实验结果
研究问题
- RQ1如何在利用样本量信息的前提下,从五数概括中最优地估计样本标准差?
- RQ2何种加权方案能在不同数据分布下最大化标准差估计的准确性?
- RQ3与现有方法相比,该方法在正态和非正态数据下的均方误差表现如何?
- RQ4所提出的估计量能否作为元分析中仅报告五数概括的研究的可靠经验法则?
- RQ5可开发何种实用工具以支持该新估计方法在临床和流行病学研究中的广泛应用?
主要发现
- 所提出的平滑加权标准差估计量在正态数据下显著优于现有方法,估计精度更高。
- 该方法在非正态分布下仍保持良好性能,展现出超越正态性假设的稳健性。
- 最优权重的近似公式可实现高效且精确的实现,无需复杂计算。
- 标准差的快捷公式可在实际元分析应用中实现快速估计。
- 数值结果证实,将所提出的标准差估计量与 Luo 等人提出的最优均值估计量结合使用,可极大提升整体转换的准确性。
- 提供 Excel 电子表格和在线计算器显著提升了该方法在真实元分析工作流程中的可用性和采纳率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。