[论文解读] Automatic Bug Triage using Semi-Supervised Text Classification
一种半监督文本分类方法将朴素贝叶斯和期望最大化结合起来,利用带标签和未标记的缺陷报告进行缺陷分拣,并通过加权的开发者感知训练和迭代标注来提高相对于有监督方法的准确性。
In this paper, we propose a semi-supervised text classification approach for bug triage to avoid the deficiency of labeled bug reports in existing supervised approaches. This new approach combines naive Bayes classifier and expectation-maximization to take advantage of both labeled and unlabeled bug reports. This approach trains a classifier with a fraction of labeled bug reports. Then the approach iteratively labels numerous unlabeled bug reports and trains a new classifier with labels of all the bug reports. We also employ a weighted recommendation list to boost the performance by imposing the weights of multiple developers in training the classifier. Experimental results on bug reports of Eclipse show that our new approach outperforms existing supervised approaches in terms of classification accuracy.
研究动机与目标
- 解决缺乏足够的带标签缺陷报告以实现有效的缺陷分拣
- 开发一种半监督学习方法,利用带标签和未带标签的缺陷报告
- 在缺陷分拣准确性上优于传统的监督方法
- 通过加权训练信号纳入开发者影响
- 在真实世界的缺陷库(Eclipse)上证明有效性
提出的方法
- 将朴素贝叶斯分类器与期望最大化相结合,以利用未标记的缺陷报告
- 用一部分带标签的报告训练初始分类器
- 迭代地对未标记的缺陷报告进行标注,并使用所有报告的标签重新训练
- 纳入一个带权重的推荐列表,在训练过程中施加开发者权重
- 在Eclipse缺陷报告上进行评估,并与现有监督方法进行比较
实验结果
研究问题
- RQ1在有限带标签数据的情况下,半监督文本分类能否提高缺陷分拣的准确性?
- RQ2通过EM整合未标记数据对缺陷分拣中分类器性能有何影响?
- RQ3纳入开发者加权训练是否能改善分拣结果?
- RQ4在真实世界数据集(Eclipse)上,所提方法与标准监督方法的比较如何?
主要发现
- 在Eclipse缺陷报告上的分类准确性方面,使用EM与NB的半监督方法优于现有的监督方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。