[论文解读] Reproducible Research and GIScience: An Evaluation Using GIScience Conference Papers
本文评估了跨科学领域的可重现研究中相互冲突的术语使用,识别出两种主导惯例:一种是将‘reproduce’定义为重新运行原始代码/数据以验证结果(Claerbout/Donoho),另一种是将‘replicate’定义为使用新数据/方法进行独立再分析(Peng)。其主要贡献在于系统性地映射了各学科中术语使用的差异,揭示了标准化的迫切需求,以解决学术交流和研究诚信中的混淆问题。
GIScience conference authors and researchers face the same computational reproducibility challenges as authors and researchers from other disciplines who use computers to analyse data. Here, to assess the reproducibility of GIScience research, we apply a rubric for assessing the reproducibility of 75 conference papers published at the GIScience conference series in the years 2012-2018. Since the rubric and process were previously applied to the publications of the AGILE conference series, this paper itself is an attempt to replicate that analysis, however going beyond the previous work by evaluating and discussing proposed measures to improve reproducibility in the specific context of the GIScience conference series. The results of the GIScience paper assessment are in line with previous findings: although descriptions of workflows and the inclusion of the data and software suffice to explain the presented work, in most published papers they do not allow a third party to reproduce the results and findings with a reasonable effort. We summarise and adapt previous recommendations for improving this situation and propose the GIScience community to start a broad discussion on the reusability, quality, and openness of its research. Further, we critically reflect on the process of assessing paper reproducibility, and provide suggestions for improving future assessments. The code and data for this article are published at https://doi.org/10.5281/zenodo.4032875.
研究动机与目标
- 识别并分类科学文献中多个学科领域对‘reproduce’和‘replicate’术语的分歧用法。
- 考察这些术语在计算与实证研究中历史发展与当前应用。
- 评估主要期刊和专业组织(如ACM、FASEB、American Journal of Political Science)如何定义并应用这些术语。
- 评估术语不一致对研究可重现性与科学可信度的影响。
- 通过与计算科学和实证研究中既定实践对齐,提出实现术语标准化的路径。
提出的方法
- 对142篇GIScience会议论文进行跨学科分析,评估其在可重现性语境下的术语使用。
- 应用决策树对论文进行分类,判断其是否区分‘reproduce’与‘replicate’,若区分,则确定各术语对应的标准。
- 绘制14个学术领域(包括政治学、信号处理、流行病学和计算生物学)中的术语使用情况。
- 审查主要出版商(如Annals of Internal Medicine、Biostatistics、Genome Biology)的政策声明与期刊指南,比较其术语标准。
- 分析Claerbout、Donoho、Peng和King的奠基性著作,追溯计算与实证研究中术语演变的历史。
- 评估机构实践,如第三方复制验证(如American Journal of Political Science)以及ReScience期刊的显式复制模式。
实验结果
研究问题
- RQ1不同科学领域如何在可重现研究语境下定义和应用‘reproduce’与‘replicate’这两个术语?
- RQ2可重现性术语分歧的术语惯例在历史与学科根源上是什么?
- RQ3主要期刊与专业组织在多大程度上实现了术语标准化?其定义与奠基性著作是否一致?
- RQ4为何ACM与FASEB采用了与广泛使用的Claerbout/Donoho/Peng框架相悖的术语?
- RQ5能否在不破坏政治学与经济学等学科中既定实践的前提下实现术语标准化?
主要发现
- 本文识别出两种主导术语阵营:A组(不区分‘reproduce’与‘replicate’)和B组(区分两词),其中B组进一步分为B1(reproduce = 相同数据 + 相同方法 → 相同结果)与B2(replicate = 新数据或新方法 → 相同发现)。
- Claerbout/Donoho模型——即‘可重现研究’指提供数据与代码以便结果可被重新运行——已被计算科学、统计学和计算生物学领域广泛采纳。
- 相比之下,政治学、经济学和流行病学领域主要使用‘replication’来描述使用新数据进行的独立再分析,与Peng对复制作为独立验证的定义一致。
- 如American Journal of Political Science和Biostatistics等期刊已将‘replication files’或‘reproducible research’标准制度化,部分期刊要求对结果进行第三方验证。
- ReScience期刊明确定义‘reproduction’为在相同数据上运行相同代码以验证正确性,而‘replication’为实现方法的新版本以获得等效结果。
- 尽管Claerbout/Donoho术语体系已被广泛采纳,ACM与FASEB仍采用了相反的惯例,其理由薄弱(如引用《国际计量学词汇》),成为标准化的主要障碍。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。