QUICK REVIEW

[論文レビュー] Fault Detection Effectiveness of Metamorphic Relations Developed for Testing Supervised Classifiers

Prashanta Saha, Upulee Kanewala|arXiv (Cornell University)|Jan 1, 2019

Software Testing and Debugging Techniques参考文献 22被引用数 1

ひとこと要約

本研究では、教師あり分類器、特にk-近傍法（k-NN）のテストに用いられる変換関係（MR）の故障検出効果を評価している。709個の到達可能なミューテントを用いて評価したが、以前の報告とは異なり、故障検出率はわずか14.8%にとどまり、ユーザーの期待に基づくMRは、以前に報告されたほど効果的ではないことが明らかになった。

ABSTRACT

In machine learning, supervised classifiers are used to obtain predictions for unlabeled data by inferring prediction functions using labeled data. Supervised classifiers are widely applied in domains such as computational biology, computational physics and healthcare to make critical decisions. However, it is often hard to test supervised classifiers since the expected answers are unknown. This is commonly known as the \emph{oracle problem} and metamorphic testing (MT) has been used to test such programs. In MT, metamorphic relations (MRs) are developed from intrinsic characteristics of the software under test (SUT). These MRs are used to generate test data and to verify the correctness of the test results without the presence of a test oracle. Effectiveness of MT heavily depends on the MRs used for testing. In this paper we have conducted an extensive empirical study to evaluate the fault detection effectiveness of MRs that have been used in multiple previous studies to test supervised classifiers. Our study uses a total of 709 reachable mutants generated by multiple mutation engines and uses data sets with varying characteristics to test the SUT. Our results reveal that only 14.8\% of these mutants are detected using the MRs and that the fault detection effectiveness of these MRs do not scale with the increased number of mutants when compared to what was reported in previous studies.

研究の動機と目的

先行研究で用いられた変換関係（MR）の故障検出効果を、実験的に評価すること。
以前の研究が極めて少ない数のミューテント（例：22～24個）を用いて評価していたという限界を是正すること。
ユーザーの期待に基づくMRが、実世界の教師あり分類器実装における故障を信頼性を持って検出できるかを調査すること。
テストデータセットのサイズの変化が、MRの故障検出効果に与える影響を検討すること。

提案手法

Wekaライブラリに実装された実世界のk-NN実装に対して、MuJavaおよびMajorの2つのミューテーションツールを用いて709個の到達可能なミューテントを生成した。
k-NNのアルゴリズム的性質およびユーザーの期待に基づいて導出された10個の定型MRを適用し、フォローアップのテストケースを生成した。
異なるデータセットサイズを有する元のテストケースを用いて、MRの入力条件下での頑健性を評価した。
各MRが期待される出力変化と実際の出力変化を比較することで、故障検出効果（ミューテントの殺し率）をパcentで測定した。
MuJavaとMajorのツール間でのミューテント殺し率の比較分析を実施し、特定のMRの優位性や一貫性を評価した。
MRとミューテント殺し率の相関関係を分析し、最も効果的な関係を同定した。

実験結果

リサーチクエスチョン

RQ1ユーザーの期待に基づいて開発されたMRは、教師あり分類器の故障検出にどの程度効果的か？
RQ2評価に用いられるミューテント数を増加させると、以前の研究で報告された小さなミューテント集合と比較して、故障検出効果が顕著に変化するか？
RQ3元のテストケースとして使用する入力データセットのサイズが、MRの故障検出効果に影響を及ぼすか？
RQ4どのMRが最も効果的にミューテントを検出できるか。また、異なるミューテーションツール間で一貫性は見られるか？
RQ5ユーザーの期待に基づくMRは、アルゴリズム的性質に基づくMRに比べて、どの程度優れているか？

主な発見

709個の到達可能なミューテントのうち、14.8%しかMRによって検出されなかった。これは、以前の高効果との報告とは対照的であり、故障検出効果が低いことを示している。
MRの故障検出効果は、ミューテント数の増加に伴って向上しないことが判明。これは、以前の研究が少数のミューテント集合で高い検出率を報告していたのとは対照的である。
MR7およびMR9は、MuJavaおよびMajorの両方のツールで最も高いミューテント殺し率を示し、テストされた関係の中で最も効果的であることが判明した。
MuJavaで生成されたミューテントの全体の殺し率は43.6%であったのに対し、Majorは35.1%であった。しかし、大多数の個別のMRについて、Majorで生成されたミューテントの方が容易に検出された。これは、MR7が検出において優位であることを示唆している。
元のテストケースとして使用するランダムに生成されたデータセットのサイズを変更しても、MRの故障検出効果に顕著な影響は認められなかった。
結果から、ユーザーの期待に基づくMRは、信頼性のある故障検出には不十分であり、より効果的なMRはアルゴリズム的性質に基づくものであるべきであると示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。