[论文解读] Statistical and practical significance of empirical software engineering research: A maturity model
本文提出了一种经验性软件工程研究的统计成熟度模型,基于对2015年期刊论文的手动审查以及对3,011项研究(2001–2015年)的半自动分类。研究发现,定量分析和非参数检验的统计成熟度呈上升趋势,但结果与实际意义之间的联系存在关键缺口,呼吁明确讨论实际影响,如投资回报率,并建议采用贝叶斯分析以增强推断能力。
Software engineering research is maturing and papers increasingly support their arguments with empirical data from a multitude of sources, using statistical tests to judge if and to what degree empirical evidence supports their hypotheses. This paper presents trends and current state of art regarding statistical maturity in empirical software engineering research; the objective being the development of a statistical maturity model. First, we manually reviewed papers from four well-known and top ranked journals producing a review protocol along with the view of current (2015) state of art concerning statistical maturity, practical significance and reproducibility of empirical software engineering research. Our protocol was then used as ground truth, i.e., training set, for a semi-automatic classification of studies for the years 2001--2015 using a total of 3,011 papers. We used the extracted data to develop a statistical maturity model which also includes a model for how to argue for practical significance. The statistical maturity of empirical software engineering research has an upward trend in certain areas (e.g., use of nonparametric statistics, but also more generally in the usage of quantitative analysis). However, we also see how our research area currently often fails to connect the statistical analysis to practical significance. For instance, we argue that conclusions should explicitly state contributions to software engineering practice, e.g., the return on investment for practitioners. We argue that the statistical maturity model can be used by researchers and practitioners to build a coherent statistical analysis and guide them in the choice of statistical approaches of its steps. The final goal for a researcher would be to, in a clearer way, present and argue for the practical significance of their findings. Bayesian analysis, we believe, has a role to play in this.
研究动机与目标
- 评估截至2015年经验性软件工程研究中统计成熟度的现状。
- 识别统计发现与软件工程实践中的实际意义之间持续存在的脱节问题。
- 开发一个统计成熟度模型,以指导研究人员选择合适的统计方法。
- 提出一个论证实际意义的框架,包括可衡量的贡献,如投资回报率。
- 通过在经验性SE研究中采用结构化的统计分析,促进可重现性和方法论严谨性。
提出的方法
- 对四本顶级软件工程期刊的论文进行了手动审查,以建立审查协议和统计成熟度的基准真实数据。
- 使用该协议对2001年至2015年间的3,011篇经验性软件工程论文进行半自动分类。
- 基于手动审查的数据集训练分类系统,以评估该研究领域中统计实践的趋势。
- 开发了一个具有不同层级的统计成熟度模型,以指导研究人员在方法论选择上的决策。
- 整合了一个评估实际意义的框架,强调实际影响,如成本效益和投资回报率。
- 倡导使用贝叶斯分析以增强推断能力,并更好地支持关于实际相关性的论断。
实验结果
研究问题
- RQ1截至2015年,经验性软件工程研究中的统计成熟度处于何种水平?
- RQ2该领域研究在多大程度上将统计结果与软件工程实践者所需的实际意义相联系?
- RQ32001年至2015年间,经验性软件工程研究中的统计实践如何演变?
- RQ4在将统计发现与软件工程中的实际影响联系方面,存在哪些方法论上的缺口?
- RQ5统计成熟度模型如何指导研究人员选择适当的统计方法并提升实际相关性?
主要发现
- 经验性软件工程研究中的统计成熟度呈上升趋势,尤其体现在非参数统计和定量分析的使用方面。
- 尽管方法论取得进步,但许多研究未能将统计结果与软件工程实践的实际意义相联系。
- 大多数经验研究中缺乏对实际贡献(如投资回报率或成本效益)的明确讨论。
- 所提出的统计成熟度模型为研究人员在方法论选择上提供了结构化框架,并有助于提升统计分析的一致性。
- 建议整合贝叶斯分析,以增强推断能力,并更好地支持关于实际意义的论断。
- 可重现性仍是挑战,许多研究对方法论透明度和报告标准的关注不足。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。