QUICK REVIEW

[论文解读] Machine Learning Testing: Survey, Landscapes and Horizons

Jie M. Zhang, Mark Harman|arXiv (Cornell University)|Jun 19, 2019

Adversarial Robustness in Machine Learning参考文献 235被引用 108

一句话总结

本综述定义了机器学习测试，全面回顾了横跨属性、组件、工作流和应用的144篇ML测试论文，并概述趋势与未来方向。

ABSTRACT

This paper provides a comprehensive survey of Machine Learning Testing (ML testing) research. It covers 144 papers on testing properties (e.g., correctness, robustness, and fairness), testing components (e.g., the data, learning program, and framework), testing workflow (e.g., test generation and test evaluation), and application scenarios (e.g., autonomous driving, machine translation). The paper also analyses trends concerning datasets, research trends, and research focus, concluding with research challenges and promising research directions in ML testing.

研究动机与目标

定义机器学习测试（ML testing）及明确其范围与术语。
对144篇ML测试论文在属性、组件、工作流与应用场景进行综述。
分析ML测试文献的分布、数据集与趋势。
识别ML测试研究中的未解问题、挑战以及有前景的方向。

提出的方法

按四个维度组织文献：测试属性（如正确性、鲁棒性、公平性）、ML组件（数据、学习程序、框架）、测试工作流（测试生成、执行、评估）以及应用场景（如自动驾驶、机器翻译）。
对收集的论文进行定量与定性分析，包括在ML类别与数据集上的分布。
通过区分ML测试与传统软件测试来阐明独特挑战（例如数据驱动行为、Oracle问题）。
通过勾勒ML测试的挑战和潜在研究方向来综合未来前景。

实验结果

研究问题

RQ1什么定义与范围最能体现机器学习测试（ML testing）及其与软件测试的关系？
RQ2在属性、组件、工作流与应用方面，ML测试文献的格局如何？
RQ3哪些趋势、数据集和分布模式表征ML测试研究？
RQ4未来ML测试研究的主要挑战与有前景的方向是什么？

主要发现

自2016年以来，约85%的ML测试论文出现，表明兴趣迅速上升。
大约120篇论文研究监督学习测试，3篇研究无监督学习测试，1篇涉及强化学习。
大多数研究（93篇）聚焦正确性与鲁棒性，较少论文针对可解释性、隐私或高效性。
综述识别出一系列测试属性、组件和工作流，并将ML测试与传统软件测试进行对比。
ML测试面临独特挑战，如数据质量、系统行为的涌现性，以及ML情境中的Oracle问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。