[论文解读] A Survey of Safety and Trustworthiness of Deep Neural Networks: Verification, Testing, Adversarial Attack and Defence, and Interpretability
对深度神经网络的安全性和可信度的综合综述,涵盖验证、测试、对抗攻击/防御以及可解释性,审阅了 202 篇论文。
In the past few years, significant progress has been made on deep neural networks (DNNs) in achieving human-level performance on several long-standing tasks. With the broader deployment of DNNs on various applications, the concerns over their safety and trustworthiness have been raised in public, especially after the widely reported fatal incidents involving self-driving cars. Research to address these concerns is particularly active, with a significant number of papers released in the past few years. This survey paper conducts a review of the current research effort into making DNNs safe and trustworthy, by focusing on four aspects: verification, testing, adversarial attack and defence, and interpretability. In total, we survey 202 papers, most of which were published after 2017.
研究动机与目标
- 通过认证和解释过程解释 DNN 的可信度概念。
- 回顾 DNN 安全性和可靠性的验证与测试技术。
- 总结对抗性攻击方法及相应的防御。
- 调研可解释性方法,使 DNN 决策更易理解。
提出的方法
- 对 202 篇论文进行系统文献综述,主要发表在 2017 年以后。
- 对局部鲁棒性、输出可达性、以及 Lipschitz 性质等安全属性进行分类。
- 将技术组织为验证(确定性保证、边界和统计保证)、测试(覆盖率标准和测试用例生成)、攻击/防御,以及可解释性。
实验结果
研究问题
- RQ1哪些属性定义 DNN 的安全性与可信度?(如鲁棒性、可达性)
- RQ2验证、测试、对抗防御和可解释性如何有助于建立 DNN 的认证与解释框架?
- RQ3验证与测试方法提供的主要方法学和保证有哪些?
- RQ4对抗性攻击的有效防御策略有哪些,它们如何获得认证?
- RQ5哪些可解释性技术有助于满足对可信 DNN 的解释要求?
主要发现
- DNN 验证提供可证明的保证,但在大规模模型上的可扩展性困难。
- 测试以覆盖引导的测试用例生成提供更轻量的计算保障。
- 对抗性攻击技术凸显了脆弱性,而防御旨在提高鲁棒性并提供经认证的保证。
- 可解释性方法提供实例级和模型级解释,提升用户信任。
- 该综述强调在部署前的认证与生命周期中的解释作为核心的信任建立过程。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。