QUICK REVIEW

[논문 리뷰] Towards Cross-Project Defect Prediction with Imbalanced Feature Sets

Peng He, Bing Li|arXiv (Cornell University)|2014. 11. 16.

Software Engineering Research참고 문헌 35인용 수 54

한 줄 요약

이 논문은 비균형 특성 집합을 가진 프로젝트 간 결함 예측(CPDP-IFS)을 위한 분포 특성 기반 인스턴스 매핑 방법을 제안한다. 이 방법은 소프트웨어 메트릭의 분포 지표(예: 평균, 분산)로 구성된 잠재 공간으로 인스턴스를 투영함으로써, 서로 다른 메트릭을 가진 프로젝트 간에도 결함 예측을 가능하게 한다. 이 방법은 정규 CPDP와 유사한 성능을 달성하며, 특히 저결함 비율 상황에서 예측 성능을 크게 향상시키며, 하이브리드 CPDP-IFS 모델과 조합할 경우 더욱 우수한 성능을 보인다.

ABSTRACT

Cross-project defect prediction (CPDP) has been deemed as an emerging technology of software quality assurance, especially in new or inactive projects, and a few improved methods have been proposed to support better defect prediction. However, the regular CPDP always assumes that the features of training and test data are all identical. Hence, very little is known about whether the method for CPDP with imbalanced feature sets (CPDP-IFS) works well. Considering the diversity of defect data sets available on the Internet as well as the high cost of labeling data, to address the issue, in this paper we proposed a simple approach according to a distribution characteristic-based instance (object class) mapping, and demonstrated the validity of our method based on three public defect data sets (i.e., PROMISE, ReLink and AEEEM). Besides, the empirical results indicate that the hybrid model composed of CPDP and CPDP-IFS does improve the prediction performance of the regular CPDP to some extent.

연구 동기 및 목표

학습 프로젝트와 테스트 프로젝트의 특성 집합이 비균형적이거나 겹치지 않을 경우 발생하는 크로스프로젝트 결함 예측(CPDP) 문제를 해결하기 위해.
비균형 특성 집합을 가진 CPDP(CPDP-IFS)가 정규 CPDP와 비교하여 유사하거나 더 나은 성능을 달성할 수 있는지 조사하기 위해.
다른 메트릭 집합을 가진 프로젝트에서의 결함 데이터를 재사용함으로써 데이터 수집 및 주석 처리의 비용과 중복을 줄이기 위해.
정규 CPDP와 CPDP-IFS를 조합한 하이브리드 모델을 개발하여, 특히 데이터가 부족한 상황에서의 예측 성능을 향상시키기 위해.
다양한 메트릭 집합을 가진 공개 결함 데이터 세트를 대상으로 제안된 방법의 타당성과 효과성을 검증하기 위해.

제안 방법

원천 프로젝트와 대상 프로젝트의 인스턴스를 메트릭 값의 분포 지표(예: 평균, 분산)로 정의된 잠재 공간으로 매핑한다. 이는 원시 메트릭이 아닌 분포 지표를 사용한다.
결함이 있는 인스턴스는 비정상적인 분포 특성(예: 높은 분산 또는 치우친 평균)을 보이며, 이러한 특성은 결함 경향성을 나타내는 지표가 될 수 있다.
다른 프로젝트의 인스턴스들이 이러한 분포 기반 특성으로 정의된 공통 잠재 공간에 투영되므로, 원래의 메트릭 집합이 다를 경우에도 크로스프로젝트 결함 예측이 가능해진다.
변환된 공간에서 로지스틱 회귀를 사용하여 분류를 수행하며, 이는 표준 CPDP 파ipeline과의 호환성을 유지한다.
특성 정렬이나 선택이 필요 없으며, 대신 통계적 분포 유사성을 기반으로 프로젝트 간 지식을 이동시킨다.
정규 CPDP와 CPDP-IFS의 예측 결과를 조합하여 하이브리드 모델을 구성함으로써 전체 성능을 향상시킨다.

실험 결과

연구 질문

RQ1학습 및 테스트 프로젝트의 소프트웨어 메트릭 집합이 다를 경우(즉, 비균형 특성 집합일 경우), 크로스프로젝트 결함 예측을 효과적으로 수행할 수 있는가?
RQ2제안된 분포 특성 기반 인스턴스 매핑 방법이 이러한 환경에서 정규 CPDP와 유사한 예측 성능을 달성하는가?
RQ3CPDP-IFS가 정규 CPDP보다 유의미한 성능 향상을 보이는 상황은 언제이며, 특히 결함 비율이 낮을 경우 어떻게 되는가?
RQ4CPDP와 CPDP-IFS를 조합한 하이브리드 모델이 개별 방법보다 예측 성능을 향상시키는가?
RQ5다양한 메트릭 집합과 프로젝트 특성을 가진 다양한 공개 결함 데이터 세트에서 제안된 방법의 탄력성은 어떠한가?

주요 결과

제안된 CPDP-IFS 방법은 세 개의 공개 결함 데이터 세트(PROMISE, ReLink, AEEEM)에서 정규 CPDP와 유사한 예측 성능을 달성하여 타당성을 입증하였다.
CPDP와 CPDP-IFS를 조합한 하이브리드 모델은 저결함 비율 상황에서 예측 성능을 크게 향상시켰으며, 특히 이러한 상황에서 F-측정치가 증가하였다.
Xalan 프로젝트에서는 CPDP-mix_pure 하이브리드 모델을 사용하여 DPR(Defect Prediction Ratio)가 0.86에 도달하여 이상치인 1에 가까워졌다.
특성 정렬이나 선택 없이도 겹치지 않는 메트릭 집합을 효과적으로 처리하여, 데이터 수집 및 주석 처리의 부담을 줄였다.
윌코크슨 부호 순위 검정과 클리프의 델타는 특히 저결함 상황에서의 성능 향상이 통계적으로 유의미하다는 것을 확인하였다.
크기와 메트릭 집합이 다른 프로젝트 간에서도 이 방법이 탄력적이며, 실제 소프트웨어 공학 환경에서의 일반화 가능성 잠재력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.