[논문 리뷰] Automatic Bug Triage using Semi-Supervised Text Classification
반지도학습 텍스트 분류 접근법은 나이브 베이즈와 기대 최대화(EM)를 결합하여 라벨이 있는 버그 리포트와 라벨이 없는 버그 리포트를 모두 활용해 버그 triage를 수행하고, 개발자 가중치를 반영한 학습과 반복적인 표기(labeling)을 통해 지도 학습 방법보다 정확도를 향상시킨다.
In this paper, we propose a semi-supervised text classification approach for bug triage to avoid the deficiency of labeled bug reports in existing supervised approaches. This new approach combines naive Bayes classifier and expectation-maximization to take advantage of both labeled and unlabeled bug reports. This approach trains a classifier with a fraction of labeled bug reports. Then the approach iteratively labels numerous unlabeled bug reports and trains a new classifier with labels of all the bug reports. We also employ a weighted recommendation list to boost the performance by imposing the weights of multiple developers in training the classifier. Experimental results on bug reports of Eclipse show that our new approach outperforms existing supervised approaches in terms of classification accuracy.
연구 동기 및 목표
- 효과적인 버그 triage를 위한 라벨이 달린 버그 보고서의 부족 문제를 해결한다
- 라벨이 달린 버그 리포트와 라벨이 없는 버그 리포트를 모두 활용하는 반지도학습 방법을 개발한다
- 전통적인 감독 학습 접근법보다 triage 정확도를 향상시킨다
- 가중 학습 신호를 통해 개발자 영향력을 포함한다
- 실제 버그 저장소(Eclipse)에서 효과를 시연한다
제안 방법
- 나이브 베이즈 분류기와 기대 최대화를 결합하여 라벨이 없는 버그 리포트를 활용한다
- 일부 라벨이 있는 보고서로 초기 분류기를 학습한다
- 모든 리포트의 라벨을 사용하여 라벨이 없는 버그 리포트를 반복적으로 표기하고 재학습한다
- 훈련 중 개발자 가중치를 부여하는 가중화된 추천 목록을 포함한다
- Eclipse 버그 리포트를 대상으로 평가하고 기존의 감독 학습 방법과 비교한다
실험 결과
연구 질문
- RQ1제한된 라벨 데이터로 반지도학습 텍스트 분류가 버그 triage 정확도를 향상시킬 수 있는가?
- RQ2EM을 통해 라벨이 없는 데이터를 통합하는 것이 버그 triage에서 분류기 성능에 어떤 영향을 미치는가?
- RQ3개발자 가중치가 반영된 학습을 포함하는 것이 triage 결과를 개선하는가?
- RQ4제안된 방법이 실제 데이터셋(Eclipse)에서 표준 감독 학습 방법과 어떻게 비교되는가?
주요 결과
- EM과 NB를 이용한 반지도학습 접근법은 Eclipse 버그 리포트의 분류 정확도에서 기존의 감독 학습 방법을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.