QUICK REVIEW

[논문 리뷰] Is "Better Data" Better than "Better Data Miners"? (On the Benefits of Tuning SMOTE for Defect Prediction)

Amritanshu Agrawal, Tim Menzies|arXiv (Cornell University)|2017. 05. 10.

Software Engineering Research참고 문헌 67인용 수 79

한 줄 요약

이 논문은 defect 예측을 위한 SMOTE의 자동 튜닝인 SMOTUNED를 소개하며, 데이터 전처리의 성능이 분류기 선택보다 우수할 수 있고 튜닝된 SMOTE가 많은 데이터셋에서 성능을 크게 향상시킨다고 제시합니다.

ABSTRACT

We report and fix an important systematic error in prior studies that ranked classifiers for software analytics. Those studies did not (a) assess classifiers on multiple criteria and they did not (b) study how variations in the data affect the results. Hence, this paper applies (a) multi-criteria tests while (b) fixing the weaker regions of the training data (using SMOTUNED, which is a self-tuning version of SMOTE). This approach leads to dramatically large increases in software defect predictions. When applied in a 5*5 cross-validation study for 3,681 JAVA classes (containing over a million lines of code) from open source systems, SMOTUNED increased AUC and recall by 60% and 20% respectively. These improvements are independent of the classifier used to predict for quality. Same kind of pattern (improvement) was observed when a comparative analysis of SMOTE and SMOTUNED was done against the most recent class imbalance technique. In conclusion, for software analytic tasks like defect prediction, (1) data pre-processing can be more important than classifier choice, (2) ranking studies are incomplete without such pre-processing, and (3) SMOTUNED is a promising candidate for pre-processing.

연구 동기 및 목표

튜닝 데이터 전처리(SMOTE)가 defect 예측에서 분류기 순위에 영향을 미치는지 식별한다.
SMOTUNED를 대규모 defect 데이터셋에 걸쳐 SMOTE의 자동 매개변수 튜닝 방법으로 평가한다.
데이터 전처리가 defect 예측 작업에서 분류기 선택보다 우수할 수 있는지 평가한다.

제안 방법

SMOTUNED를 제안하는 automatic DE 기반 SMOTE 매개변수(k, m, r) 튜너를 통해 성능 기준을 최적화한다.
오픈소스 시스템의 3,681개 Java 클래스에 대해 SMOTE, SMOTUNED, MAHAKIL(최근의 비대칭 기법)을 비교하기 위해 5x5 교차검증을 수행한다.
다양한 평가 지표(AUC, 재현율, 정밀도, 오경보율)를 사용하고 내부-측정 및 교차-측정 성능을 모두 평가한다.
DE(차등 진화) 검색을 적용해 SMOTE 매개변수 구성을 진화시키고 최상의 설정을 선택한다.
학습 데이터에만 SMOTE/SMOTUNED를 적용하고 테스트 데이터는 변경 없이 예측 이득을 측정한다.

실험 결과

연구 질문

RQ1RQ1: 기본 SMOTE 매개변수가 모든 데이터 세트에 적합한가?
RQ2RQ2: 데이터 세트마다 SMOTE를 조정하면 성능 이점이 있는가?
RQ3RQ3: 성능 이득을 고려할 때 SMOTUNED의 실행 시간은 수용 가능한가?
RQ4RQ4: SMOTUNED가 Bennin 등의 최근 클래스 불균형 기술(MAHAKIL)과 어떻게 비교되는가?

주요 결과

SMOTUNED는 각 데이터 세트에 대해 다른 SMOTE 매개변수를 학습하여 기본 SMOTE와 현저히 다른 구성을 보인다.
SMOTUNED는 SMOTE에 비해 최대 60%의 AUC 개선과 20%의 재현률 개선 등 현저한 성능 향상을 보인다.
SMOTUNED는 2분 이내에 실행되어 널리 사용하기에 실용적이다.
SMOTUNED는 보고된 비교에서 최근의 불균형 기법 MAHAKIL보다 우수한 성능을 보인다.
전반적으로 SMOTUNED를 활용한 데이터 전처리는 defect 예측에서 분류기 선택보다 더 큰 영향을 미칠 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.