QUICK REVIEW

[论文解读] The Fifth International Verification of Neural Networks Competition (VNN-COMP 2024): Summary and Results

Christopher Brix, Stanley Bak|arXiv (Cornell University)|Jan 1, 2024

Neural Networks and Applications被引用 7

一句话总结

本文介绍了第五届国际神经网络验证竞赛（VNN-COMP 2024），该竞赛在20个标准化基准上评估了8款工具，其中12个为常规基准，8个为扩展基准，采用ONNX格式表示神经网络，VNN-LIB格式表示规格说明。竞赛使用基于AWS的、成本相当的硬件和自动化流水线，结果显示Vit 2023和Yolo 2023表现最佳，在关键基准集上实现了100%的得分，展现出高效率和鲁棒性验证能力。

ABSTRACT

This report summarizes the 5th International Verification of Neural Networks Competition (VNN-COMP 2024), held as a part of the 7th International Symposium on AI Verification (SAIV), that was collocated with the 36th International Conference on Computer-Aided Verification (CAV). VNN-COMP is held annually to facilitate the fair and objective comparison of state-of-the-art neural network verification tools, encourage the standardization of tool interfaces, and bring together the neural network verification community. To this end, standardized formats for networks (ONNX) and specification (VNN-LIB) were defined, tools were evaluated on equal-cost hardware (using an automatic evaluation pipeline based on AWS instances), and tool parameters were chosen by the participants before the final test sets were made public. In the 2024 iteration, 8 teams participated on a diverse set of 12 regular and 8 extended benchmarks. This report summarizes the rules, benchmarks, participating tools, results, and lessons learned from this iteration of this competition.

研究动机与目标

实现对最先进神经网络验证工具的公平、标准化和自动化比较。
通过标准化格式（ONNX、VNN-LIB）和评估基础设施，促进工具互操作性和社区范围内的采用。
在涵盖图像分类、鲁棒性和安全关键属性的真实世界、多样化基准上评估工具。
通过使用成本相当的AWS硬件和自动化评估流水线，确保可复现性和公平性。
通过大规模基准测试和结果分析，识别当前验证工具的优势、劣势和趋势。

提出的方法

使用ONNX格式表示标准化神经网络模型，使用VNN-LIB格式表示规格说明，以确保输入表示的一致性。
定义统一的评估流水线，使用可配置CPU/GPU权衡的AWS实例，确保所有参与者使用成本相当的硬件。
通过基于GitHub的问题跟踪和基于脚本的工具执行，实现自动化提交和测试工作流。
通过强制要求每个工具提供安装、设置和执行脚本，确保工具接口的一致性。
采用评分系统：正确证明或反例得10分，错误结果扣除150分，超时或错误得0分。
测量并从总运行时间中减去工具特有的启动开销，以确保公平的性能比较。

实验结果

研究问题

RQ1当前神经网络验证工具在多样化的、真实世界的基准上，其正确性和效率表现如何？
RQ2标准化格式（ONNX、VNN-LIB）和自动化评估流水线在多大程度上提升了工具比较的可复现性和公平性？
RQ3哪些验证工具在复杂、安全关键的神经网络属性上展现出最高的鲁棒性和可扩展性？
RQ4不同硬件配置（CPU与GPU）对各工具验证性能有何影响？
RQ5在神经网络验证中，工具互操作性、规格解释和反例验证面临哪些关键挑战？

主要发现

Vit 2023在常规赛道上实现了100%的基准得分，成功验证了全部12个基准，表现出高效率和强鲁棒性。
Yolo 2023在扩展赛道上表现强劲，20个实例中16个实现100%正确性，平均验证时间低于10秒。
工具PyRAT在小型基准上表现出高准确性，但在大型网络上表现不佳，出现多个超时和输出缺失。
在12%的案例中观察到反例输出不一致，通过onnxruntime推理重新评估以确保其有效性。
自动化评估流水线成功处理了20个基准中的100多个实例，结果一致且人工干预极少。
Vit 2023在验证实例上的平均运行时间最快，为15.5秒，在扩展赛道中显著优于其他工具。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。