QUICK REVIEW

[논문 리뷰] Fault Detection Effectiveness of Metamorphic Relations Developed for Testing Supervised Classifiers

Prashanta Saha, Upulee Kanewala|arXiv (Cornell University)|2019. 01. 01.

Software Testing and Debugging Techniques참고 문헌 22인용 수 1

한 줄 요약

이 연구는 감독 분류기, 특히 k-최근접 이웃(k-NN)을 테스트하는 데 사용되는 변형관계(MRs)의 결함 탐지 효과성을 평가한다. 709개의 접근 가능한 변종을 사용하여 평가하였으며, 이전 연구에서 높은 효과성으로 보고한 바와는 달리, 유일하게 14.8%의 변종만 탐지되었다. 이는 사용자 기대를 기반으로 한 MRs가 이전에 보고된 것보다 훨씬 낮은 효과성을 보임을 시사한다.

ABSTRACT

In machine learning, supervised classifiers are used to obtain predictions for unlabeled data by inferring prediction functions using labeled data. Supervised classifiers are widely applied in domains such as computational biology, computational physics and healthcare to make critical decisions. However, it is often hard to test supervised classifiers since the expected answers are unknown. This is commonly known as the \emph{oracle problem} and metamorphic testing (MT) has been used to test such programs. In MT, metamorphic relations (MRs) are developed from intrinsic characteristics of the software under test (SUT). These MRs are used to generate test data and to verify the correctness of the test results without the presence of a test oracle. Effectiveness of MT heavily depends on the MRs used for testing. In this paper we have conducted an extensive empirical study to evaluate the fault detection effectiveness of MRs that have been used in multiple previous studies to test supervised classifiers. Our study uses a total of 709 reachable mutants generated by multiple mutation engines and uses data sets with varying characteristics to test the SUT. Our results reveal that only 14.8\% of these mutants are detected using the MRs and that the fault detection effectiveness of these MRs do not scale with the increased number of mutants when compared to what was reported in previous studies.

연구 동기 및 목표

이전 연구에서 사용된 변형관계(MRs)의 결함 탐지 효과성을 실증적으로 평가하는 것.
이전 연구에서 평가에 매우 작은 수의 변종(예: 22~24개)을 사용한 한계를 해결하는 것.
사용자 기대를 기반으로 한 MRs가 실제 감독 분류기 구현에서 결함을 신뢰성 있게 탐지할 수 있는지 조사하는 것.
테스트 데이터 세트 크기의 변화가 MR의 결함 탐지 효과성에 미치는 영향을 분석하는 것.

제안 방법

Weka 라이브러리의 실제 k-NN 구현에서 MuJava와 Major 두 가지 변종 도구를 사용하여 709개의 접근 가능한 변종을 생성하였다.
k-NN의 사용자 기대와 알고리즘적 성질에서 유도된 10개의 사전 정의된 MRs를 적용하여 후속 테스트 케이스를 생성하였다.
다양한 데이터 세트 크기를 가진 소스 테스트 케이스를 사용하여 MR의 다양한 입력 조건 하에서의 강건성을 평가하였다.
각 MR이 예상 출력 변화와 실제 출력 변화를 비교하여, 살해된(즉, 탐지된) 변종의 비율로 결함 탐지 효과성을 측정하였다.
MuJava와 Major 도구 간의 변종 살해율을 비교 분석하여 특정 MR의 일관성과 우세성을 평가하였다.
MR과 변종 살해율 간의 상관관계를 분석하여 가장 효과적인 관계를 규명하였다.

실험 결과

연구 질문

RQ1사용자 기대를 기반으로 개발된 MRs는 감독 분류기의 결함 탐지에 얼마나 효과적인가?
RQ2평가에 사용된 변종 수가 증가하면, 이전 연구에서 작은 변종 집합을 사용한 결과와 비교해 결함 탐지 효과성이 유의미하게 변화하는가?
RQ3소스 테스트 케이스로 사용된 입력 데이터 세트의 크기가 MR의 결함 탐지 효과성에 영향을 미치는가?
RQ4어느 MRs가 변종을 가장 효과적으로 탐지하는가? 그리고 다양한 변종 도구 간 일관성이 있는가?
RQ5사용자 기대를 기반으로 한 MRs는 알고리즘적 성질을 기반으로 한 MRs보다 얼마나 더 우수한가?

주요 결과

709개의 접근 가능한 변종 중 유일하게 14.8%만 10개의 MRs에 의해 탐지되어, 이전 연구에서의 높은 효능 주장에 비해 낮은 결함 탐지 효과성을 보였다.
MR의 결함 탐지 효과성이 변종 수 증가와 함께 확장되지 않으며, 이는 이전 연구에서 작은 변종 집합을 사용한 경우 높은 탐지율을 보고한 바와 모순된다.
MR7과 MR9는 MuJava 및 Major 도구 양쪽 모두에서 가장 높은 변종 살해율을 보이며, 테스트된 관계 중에서 가장 효과적인 것으로 나타났다.
MuJava가 생성한 변종은 전체적으로 높은 살해율(43.6%)을 보였지만, 대부분의 개별 MR에 대해서는 Major가 생성한 변종이 더 쉽게 살해되었으며, 이는 MR7이 탐지에서 우세함을 시사한다.
소스 테스트 케이스로 사용된 무작위로 생성된 데이터 세트의 크기를 변경하더라도 MR의 결함 탐지 효과성에 유의미한 영향을 주지 않았다.
결과적으로 사용자 기대를 기반으로 한 MRs는 신뢰할 수 있는 결함 탐지에 부적합하며, 더 효과적인 알고리즘적 성질 기반 MRs가 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.