[논문 리뷰] A systematic mapping study on cross-project defect prediction
이 체계적 맵핑 연구는 2006–2015년 기간 동안 49개의 교차 프로젝트 결함 예측(CPDP) 연구를 분석하여 일반적인 기법, 데이터 세트, 분류기, 성능 메트릭, 베이스라인을 규명한다. 연구는 데이터, 평가 메트릭, 복제 실패 문제로 인해 심각한 일관성 결여를 드러내며, 이는 교차 연구 간 비교를 어렵게 하고 CPDP 연구 분야에서 표준화된 보고의 필요성을 강조한다.
Cross-Project-Defect Prediction as a sub-topic of defect prediction in general has become a popular topic in research. In this article, we present a systematic mapping study with the focus on CPDP, for which we found 50 publications. We summarize the approaches presented by each publication and discuss the case study setups and results. We discovered a great amount of heterogeneity in the way case studies are conducted, because of differences in the data sets, classifiers, performance metrics, and baseline comparisons used. Due to this, we could not compare the results of our review on a qualitative basis, i.e., determine which approaches perform best for CPDP.
연구 동기 및 목표
- 2006년부터 2015년까지의 교차 프로젝트 결함 예측(CPDP) 분야에서의 최신 기술 동향을 종합적으로 제공한다.
- CPDP 연구에서 사용된 기법, 데이터 세트, 분류기, 성능 메트릭, 베이스라인을 식별하고 분류한다.
- CPDP 연구 간 비교 가능성 평가 및 메타분석을 방해하는 요인을 규명한다. 이는 방법론적 이질성 때문이므로.
- 문헌에서의 경험적 발견을 바탕으로 Turhan(2012)의 교차 프로젝트 접근법 분류 체계를 확장한다.
- 제안된 방법의 복제 부족 문제를 강조하며, CPDP 연구의 외부 타당성에 미치는 위협을 제기한다.
제안 방법
- Kitchenham 및 Charters(2007) 가이드라인을 따르는 체계적 맵핑 연구를 수행하였으며, 주로 동료 심사된 영문 논문을 대상으로 하였다.
- Google Scholar를 활용하여 'cross-project defect prediction' 및 'cross-company fault prediction'과 같은 타겟 검색어를 사용해 관련 연구를 식별하였다.
- 포함 및 배제 기준을 적용: 포함 조건은 CPDP에 초점을 맞춘 사례 연구, 이론적 논의, 또는 도구 개발이어야 하며, 배제 조건은 WPDP 전용 또는 동료 심사되지 않은 논문이다.
- 50개의 식별된 연구 중 49개를 완전히 분석하여 기법, 분류기, 데이터 세트, 성능 메트릭, 베이스라인에 관한 데이터를 수집하였다.
- 연구 간 추세, 일관성 결여, 보고 품질을 분석하기 위해 정성적 종합 분석을 수행하였다.
- CPDP 연구에서 관찰된 방법론적 패턴을 바탕으로 Turhan(2012)의 분류 체계를 확장하였다.
실험 결과
연구 질문
- RQ1CPDP에 대해 이미 고려된 기법은 무엇이었는가?
- RQ2CPDP 연구에서 가장 인기 있었던 분류기는 무엇인가?
- RQ3CPDP 연구에서 사용된 데이터 세트는 무엇이었는가?
- RQ4CPDP를 평가하기 위해 사용된 성능 메트릭은 무엇이었는가?
- RQ5제안된 접근법은 어떤 기준과 비교되었는가?
주요 결과
- 2006년부터 2015년까지 총 49개의 CPDP 연구가 식별되고 분석되었다.
- Turhan 등(2009)이 제안한 k-NN 관련성 필터가 가장 자주 사용된 베이스라인으로, 9개의 연구에서 사용되었다.
- 가장 인기 있었던 분류기는 k-Nearest Neighbors(k-NN)로, 15개의 연구에서 사용되었으며, 그 다음으로 로지스틱 회귀(Logistic Regression)가 10개의 연구에서 사용되었다.
- 성능 평가 방식은 매우 일관되지 못했다: 12종의 다른 메트릭이 사용되었으며, F-measure와 정밀도가 가장 흔히 사용되었고, AUC와 비용 감도 메트릭은 각각 두 번씩만 사용되었다.
- 49개의 접근법 중 유일하게 후속 연구에서 베이스라인으로 재사용된 것은 10개에 불과하여, CPDP 연구에서 복제 부족 문제가 심각하게 드러났다.
- 데이터 세트, 성능 메트릭, 학습 설정의 차이로 인해 연구 간 비교 가능성은 심각하게 제한되어 있으며, 정확히 동일한 데이터 세트를 사용한 연구는 6개 뿐이며, 다양한 데이터 세트 간 성능 차이가 10% 이상으로 나타났다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.