QUICK REVIEW

[论文解读] Safety Verification of Neural Network Controlled Systems

Arthur Clavière, Eric Asselin|arXiv (Cornell University)|Nov 10, 2020

Adversarial Robustness in Machine Learning参考文献 31被引用 23

一句话总结

该论文提出了一种用于神经网络控制系统的系统级安全验证框架，结合经过验证的仿真以模拟物理动力学，以及抽象解释以分析神经网络控制器，从而实现可靠的可达性分析。在ACAS Xu应用场景中，该方法在12天内证明了90.3%初始状态的安全性，为系统弱点和控制器行为提供了可操作的洞察。

ABSTRACT

In this paper, we propose a system-level approach for verifying the safety of neural network controlled systems, combining a continuous-time physical system with a discrete-time neural network based controller. We assume a generic model for the controller that can capture both simple and complex behaviours involving neural networks. Based on this model, we perform a reachability analysis that soundly approximates the reachable states of the overall system, allowing to achieve a formal proof of safety. To this end, we leverage both validated simulation to approximate the behaviour of the physical system and abstract interpretation to approximate the behaviour of the controller. We evaluate the applicability of our approach using a real-world use case. Moreover, we show that our approach can provide valuable information when the system cannot be proved totally safe.

研究动机与目标

为解决由于神经网络层面缺乏全面规范而导致的神经网络控制系统缺乏形式化安全验证方法的问题。
在无需项目级细化或符合传统软件标准的前提下，为ACAS Xu等复杂真实系统提供形式化安全证明。
开发一种通用且可扩展的模型，以捕捉包含预处理和后处理组件的多组件神经网络控制器。
即使无法完全形式化证明安全性，也能通过识别不安全区域并提供可解释的洞察，实现实际的安全评估。

提出的方法

提出一种通用系统模型，整合连续时间物理系统与离散时间神经网络控制器，包含预处理和后处理组件。
使用经过验证的数值积分方法，可靠地近似物理系统随时间演化的可达状态。
应用抽象解释方法，对神经网络控制器的输出集进行过度近似，确保即使在精确语义不可计算的情况下仍保持可靠性。
通过迭代计算整体系统的可达集，结合物理系统演化与控制器抽象，执行可达性分析。
采用符号状态分区与迭代分割优化策略，在初始符号状态无法证明安全性时提升覆盖率。
采用基于阈值的剪枝策略以管理计算复杂度，丢弃超过预设限制的符号状态。

实验结果

研究问题

RQ1当传统项目级验证不适用时，系统级方法能否为神经网络控制系统提供可靠的安全保证？
RQ2如何对连续时间物理系统与离散时间神经网络控制器之间的交互进行形式化建模，以支持安全验证？
RQ3在无法完全证明安全性的前提下，可达性分析在真实系统（如ACAS Xu）中的实际适用性如何？
RQ4如何使安全验证结果具备可解释性并有助于系统改进，即使缺乏完整证明？

主要发现

所提方法在ACAS Xu用例中实现了90.3%的安全覆盖率，证明了初始状态空间中90.3%区域的安全性。
可达性分析在配备24个线程和64 GB内存的标准服务器上耗时约12天完成。
最具有挑战性的验证任务出现在入侵机从左侧或右侧接近时（x₀ < 0 ∧ y₀ > 0 或 x₀ > 0 ∧ y₀ > 0），此时覆盖率降至约75%，计算时间达到约5×10⁴秒。
结果在x₀ = 0轴两侧表现出对称性，涵盖范围与计算时间均一致，与碰撞规避问题的物理对称性相符。
该方法识别出无法证明安全性的特定初始状态区域，从而支持针对性的再训练或控制器切换策略。
该方法提供了对控制器行为的可解释洞察，例如识别关键运行场景以及系统设计中的潜在弱点。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。