Skip to main content
QUICK REVIEW

[论文解读] The Third International Verification of Neural Networks Competition (VNN-COMP 2022): Summary and Results

Mark Niklas Müller, Christopher Brix|arXiv (Cornell University)|Dec 20, 2022
Adversarial Robustness in Machine Learning被引用 28
一句话总结

本报告摘要 VNN-COMP 2022,详细说明规则、基准、参与工具、结果和经验教训,采用标准化格式并基于 AWS 的评估。

ABSTRACT

This report summarizes the 3rd International Verification of Neural Networks Competition (VNN-COMP 2022), held as a part of the 5th Workshop on Formal Methods for ML-Enabled Autonomous Systems (FoMLAS), which was collocated with the 34th International Conference on Computer-Aided Verification (CAV). VNN-COMP is held annually to facilitate the fair and objective comparison of state-of-the-art neural network verification tools, encourage the standardization of tool interfaces, and bring together the neural network verification community. To this end, standardized formats for networks (ONNX) and specification (VNN-LIB) were defined, tools were evaluated on equal-cost hardware (using an automatic evaluation pipeline based on AWS instances), and tool parameters were chosen by the participants before the final test sets were made public. In the 2022 iteration, 11 teams participated on a diverse set of 12 scored benchmarks. This report summarizes the rules, benchmarks, participating tools, results, and lessons learned from this iteration of this competition.

研究动机与目标

  • 使用通用格式(网络使用 ONNX,规范使用 VNN-LIB)标准化神经网络验证工作流。
  • 通过等成本硬件和自动评估管道实现工具的公平、客观比较。
  • 记录基准、规则、参与工具和最终结果,以指导未来发展。
  • 分享经验教训以及对后续 VNN-COMP 迭代的潜在改进。

提出的方法

  • 采用 ONNX 作为网络格式,VNN-LIB 作为规格格式,以标准化输入和反例格式。
  • 通过 AWS 实例提供等成本硬件,以实现工具之间的公平比较。
  • 为基准和工具实现自动提交与测试管道。
  • 定义一个评分系统,按实例和基准进行归一化,并包括基于时间的加分和开销校正。
  • 要求工具作者提供完全自动化的安装和执行脚本,以确保可重复性。
  • 将结果聚合到公开的 GitHub 仓库中,包含基准和最终结果。

实验结果

研究问题

  • RQ1在标准化格式和硬件下,验证工具在多样化基准集上的表现如何?
  • RQ2自动化管道和开销校正对公平工具比较有何影响?
  • RQ3从 2022 年 VNN-COMP 的经验中有哪些经验教训和改进可用于未来的竞赛?

主要发现

  • 共有十一支队伍参与,且对十二个基准进行了评分。
  • 比赛强制执行标准化的网络/规格格式以及基于 AWS 的自动评估管道。
  • 详尽的评分方案将正确性、反例发现与基于时间的加分,以及对运行开销的校正结合起来。
  • 结果和基准发布并进行讨论,规则、基准以及工具提交在 GitHub 上开放。
  • 对反例的证明责任放在声称违规的工具上,确保结果的可靠性。
  • 报告记录了经验教训以及对 VNN-COMP 后续迭代的潜在改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。