[论文解读] Sources of false positives and false negatives in the STATCHECK algorithm: Reply to Nuijten et al. (2015)
本文批判了STATCHECK算法——一种用于检测科学论文中检验统计量与p值不一致性的R工具——指出其存在一个关键缺陷:无法处理校正后的p值。因此,经过正确校正的统计检验被错误地标记为不一致,严重削弱了该算法在评估统计报告质量方面的可靠性。
STATCHECK is an R algorithm designed to scan papers automatically for inconsistencies between test statistics and their associated p values (Nuijten et al., 2016). The goal of this comment is to point out an important and well-documented flaw in this busily applied algorithm: It cannot handle corrected p values. As a result, statistical tests applying appropriate corrections to the p value (e.g., for multiple tests, post-hoc tests, violations of assumptions, etc.) are likely to be flagged as reporting inconsistent statistics, whereas papers omitting necessary corrections are certified as correct. The STATCHECK algorithm is thus valid for only a subset of scientific papers, and conclusions about the quality or integrity of statistical reports should never be based solely on this program.
研究动机与目标
- 识别并揭露STATCHECK算法中一个根本性缺陷,该缺陷损害了其可靠性。
- 证明该算法会错误地将经过正确校正的统计检验标记为不一致。
- 提醒研究人员避免仅依赖STATCHECK来评估科学论文中统计报告的质量。
- 强调在发表研究中使用校正后p值时产生误报的风险。
- 倡导对评估统计报告完整性的自动化工具进行方法学改进。
提出的方法
- 本文分析了STATCHECK算法的逻辑与实现,以识别其在处理校正后p值方面的局限性。
- 评估该算法在未考虑统计检验中应用的校正措施的情况下,如何比较检验统计量与p值。
- 作者研究了多重比较或假设检验违反情况中常用的校正方法,如Bonferroni校正、Holm-Bonferroni校正等。
- 通过实例说明校正后的p值如何导致STATCHECK输出出现误报。
- 该方法基于统计理论和算法实现的已记录细节,进行逻辑与技术推理。
- 该批判基于既定的统计原则以及STATCHECK软件的已记录行为。
实验结果
研究问题
- RQ1为何STATCHECK算法在应用于包含校正后p值的论文时会产生误报?
- RQ2缺乏对校正的处理如何影响STATCHECK对统计报告质量评估的可靠性?
- RQ3当前版本的STATCHECK不兼容哪些类型的统计校正?
- RQ4该算法在多大程度上将正确报告的统计结果误判为不一致?
- RQ5这一缺陷对自动化工具在审计科研完整性中的应用有何影响?
主要发现
- STATCHECK算法无法正确处理校正后的p值,导致系统性误报。
- 应用了有效校正(如多重比较校正)的统计检验经常被该算法错误地标记为不一致。
- 未执行必要校正的论文反而被STATCHECK错误地认定为正确,造成虚假的可靠性错觉。
- 该算法未能考虑校正措施,严重削弱了其在评估绝大多数科学论文中的有效性。
- 因此,仅依赖STATCHECK来评估统计报告质量在科学上是站不住脚且可能具有误导性的。
- 该缺陷显著限制了该算法在现实科研完整性评估中的适用性和可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。