[论文解读] Testing Deep Neural Networks
本文提出四种受 MC/DC 启发的用于 DNN 的白盒测试准则,并展示通过共形符号执行 LP 和基于梯度的搜索进行测试用例生成,以揭示对覆盖率和成本进行平衡的对抗性行为。
Deep neural networks (DNNs) have a wide range of applications, and software employing them must be thoroughly tested, especially in safety-critical domains. However, traditional software test coverage metrics cannot be applied directly to DNNs. In this paper, inspired by the MC/DC coverage criterion, we propose a family of four novel test criteria that are tailored to structural features of DNNs and their semantics. We validate the criteria by demonstrating that the generated test inputs guided via our proposed coverage criteria are able to capture undesired behaviours in a DNN. Test cases are generated using a symbolic approach and a gradient-based heuristic search. By comparing them with existing methods, we show that our criteria achieve a balance between their ability to find bugs (proxied using adversarial examples) and the computational cost of test case generation. Our experiments are conducted on state-of-the-art DNNs obtained using popular open source datasets, including MNIST, CIFAR-10 and ImageNet.
研究动机与目标
- 在安全关键领域激励对 DNN 进行结构化测试的需求。
- 开发四种面向 DNN 结构与语义的受 MC/DC 启发的覆盖准则。
- 提供一个基于白盒的测试用例生成框架,以所提出的覆盖准则为引导。
- 在 MNIST、CIFAR-10 和 ImageNet 上评估该准则,以研究错误发现与测试效率。
- 通过生成的对抗样例实现对 DNN 内部结构和鲁棒性的分析。
提出的方法
- 用层、激活和特征集定义一个 DNN 的形式化模型。
- 引入四种覆盖准则:SS(Sign-Sign,符号-符号)、VS(Value-Sign,数值-符号)、SV(Sign-Value,符号-数值)、VV(Value-Value,数值-数值)。
- 将特征建模为跨相邻层的神经元子集,并通过特征对定义条件/决策。
- 使用值函数 g 量化特征值的显著变化。
- 应用共形符号执行测试(基于 LP)来生成满足条件约束的测试用例。
- 开发基于梯度下降的测试用例生成器,以扩展到大规模 DNN。
实验结果
研究问题
- RQ1受 MC/DC 启发的覆盖准则是否能够捕捉 DNN 中的因果关系并指导有效的测试用例生成?
- RQ2SS、VS、SV 和 VV 在发现对抗性示例和权衡计算成本方面的比较?
- RQ3所提出的准则是否能扩展到大规模网络和数据集(MNIST、CIFAR-10、ImageNet)?
- RQ4新准则如何与现有的神经元层面覆盖准则相关并在其基础上改进?
主要发现
- 这四种准则将 MC/DC 的概念扩展到 DNN,并捕捉跨层的因果互动。
- SS 覆盖测试独立于条件特征的符号变化,影响决策特征。
- VS、SV 和 VV 覆盖不同的数值和值符号变化组合,以捕捉非线性 DNN 行为。
- 基于 LP 的共形符号执行测试用例生成为小到中等规模 DNN 产生高效用例,梯度基方法可扩展到大型 DNN。
- 在 MNIST、CIFAR-10 和 ImageNet 的实验表明,该准则可以引导发现错误(对抗样例),并提供对 DNN 安全和内部结构的洞见。
- 所提出的准则比先前的神经元基础准则提供更强的覆盖,尽管成本更高,但测试更充分。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。