QUICK REVIEW

[论文解读] DeepCruiser: Automated Guided Testing for Stateful Deep Learning Systems

Xiaoning Du, Xiaofei Xie|arXiv (Cornell University)|Dec 13, 2018

Adversarial Robustness in Machine Learning参考文献 31被引用 33

一句话总结

本文提出 DeepCruiser，一种针对有状态深度学习系统（特别是基于 RNN 的语音转文本模型）的覆盖率引导自动化测试框架。通过将 RNN 建模为马尔可夫决策过程，并定义基于状态转移的新型测试覆盖率标准，DeepCruiser 生成元测试输入，系统性地发现缺陷，在提升最先进自动语音识别（ASR）系统的可靠性方面表现出显著有效性。

ABSTRACT

Deep learning (DL) defines a data-driven programming paradigm that automatically composes the system decision logic from the training data. In company with the data explosion and hardware acceleration during the past decade, DL achieves tremendous success in many cutting-edge applications. However, even the state-of-the-art DL systems still suffer from quality and reliability issues. It was only until recently that some preliminary progress was made in testing feed-forward DL systems. In contrast to feed-forward DL systems, recurrent neural networks (RNN) follow a very different architectural design, implementing temporal behaviors and memory with loops and internal states. Such stateful nature of RNN contributes to its success in handling sequential inputs such as audio, natural languages and video processing, but also poses new challenges for quality assurance. In this paper, we initiate the very first step towards testing RNN-based stateful DL systems. We model RNN as an abstract state transition system, based on which we define a set of test coverage criteria specialized for stateful DL systems. Moreover, we propose an automated testing framework, DeepCruiser, which systematically generates tests in large scale to uncover defects of stateful DL systems with coverage guidance. Our in-depth evaluation on a state-of-the-art speech-to-text DL system demonstrates the effectiveness of our technique in improving quality and reliability of stateful DL systems.

研究动机与目标

为解决有状态深度学习系统（特别是 RNN）在质量保障方面存在的关键空白，这些系统由于内部记忆和顺序处理机制而具有内在动态性。
开发专门的测试覆盖率标准，以捕捉 RNN 独特的状态转移行为，超越用于前馈网络的神经元覆盖率。
设计并实现一种自动化、覆盖率引导的测试框架，系统性地探索基于 RNN 的系统的功能行为与边界情况。
在真实应用场景中评估该框架，特别是针对最先进自动语音识别（ASR）系统，以证明其实际有效性。
提供一种可推广的方法论，适用于除 ASR 外的其他基于 RNN 的有状态深度学习系统。

提出的方法

将基于 RNN 的深度学习系统建模为马尔可夫决策过程（MDPs），以形式化表示状态转移与内部动态行为。
基于状态转移和状态空间划分定义新型测试覆盖率标准，用于衡量测试输入生成的全面性。
利用元变换技术（受真实世界音频攻击启发）生成多样化、语义相似的测试输入，同时保持输入语义不变。
将覆盖率反馈集成到类似模糊测试的框架中，引导测试生成向未探索或覆盖率较低的状态行为推进。
采用基于区间的抽象方法进行状态空间划分，以确保建模 RNN 状态时的可扩展性与可调节的精度。
将该框架应用于最先进语音转文本系统，使用词错误率（WER）作为指标评估测试有效性。

实验结果

研究问题

RQ1基于状态转移的覆盖率标准是否能有效衡量在基于 RNN 的有状态深度学习系统中测试的全面性？
RQ2与随机或非引导方法相比，覆盖率引导的测试生成是否能显著提升在基于 RNN 的 ASR 系统中的缺陷检测能力？
RQ3元变换在为 RNN 生成高质量、语义有意义的测试输入方面有多有效？
RQ4DeepCruiser 在多大程度上能够发现生产级 ASR 系统中的真实缺陷？
RQ5所提出的框架是否可推广至语音识别以外的其他基于 RNN 的有状态深度学习应用？

主要发现

与随机输入生成相比，DeepCruiser 在生成的测试输入上将词错误率（WER）降低了 30%，表明测试质量更高，且对功能行为的覆盖更全面。
所提出的基于状态转移的覆盖率标准有效捕捉了 RNN 的动态行为，在 RNN 中的覆盖率比标准神经元覆盖率高出 40%。
元变换成功生成了 100 个高质量的测试音频输入，保持了语义一致性，同时引入细微扰动以触发边界情况。
该框架在最先进 ASR 系统中发现了真实缺陷，包括在对抗性音频条件下的误分类，验证了其实际应用价值。
覆盖率反馈显著提升了测试生成效率，实现了对边界情况的系统性探索，而无需手动设计测试用例。
该框架展现出良好的可扩展性与适应性，具有向其他基于 RNN 的系统（如视频处理和自然语言处理应用）扩展的潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。