QUICK REVIEW

[논문 리뷰] The Fifth International Verification of Neural Networks Competition (VNN-COMP 2024): Summary and Results

Christopher Brix, Stanley Bak|arXiv (Cornell University)|2024. 01. 01.

Neural Networks and Applications인용 수 7

한 줄 요약

이 논문은 ONNX를 네트워크 형식으로, VNN-LIB를 사양 형식으로 사용하여 8개의 도구를 20개의 표준화된 벤치마크(정규 12개, 확장 8개)에서 평가한 제5회 국제 신경망 검증 경쟁(VNN-COMP 2024)을 제시한다. 경쟁은 AWS 기반의 비용 동일 하드웨어와 자동화된 파이프라인을 사용하였으며, 결과적으로 Vit 2023과 Yolo 2023이 높은 효율성과 강건성 검증을 바탕으로 핵심 세트에서 100% 벤치마크 점수를 기록하여 최상의 성능을 보였다.

ABSTRACT

This report summarizes the 5th International Verification of Neural Networks Competition (VNN-COMP 2024), held as a part of the 7th International Symposium on AI Verification (SAIV), that was collocated with the 36th International Conference on Computer-Aided Verification (CAV). VNN-COMP is held annually to facilitate the fair and objective comparison of state-of-the-art neural network verification tools, encourage the standardization of tool interfaces, and bring together the neural network verification community. To this end, standardized formats for networks (ONNX) and specification (VNN-LIB) were defined, tools were evaluated on equal-cost hardware (using an automatic evaluation pipeline based on AWS instances), and tool parameters were chosen by the participants before the final test sets were made public. In the 2024 iteration, 8 teams participated on a diverse set of 12 regular and 8 extended benchmarks. This report summarizes the rules, benchmarks, participating tools, results, and lessons learned from this iteration of this competition.

연구 동기 및 목표

최신 신경망 검증 도구 간 공정하고 표준화되며 자동화된 비교를 가능하게 하기 위해.
표준 형식(ONNX, VNN-LIB)과 평가 인프라를 통해 도구 간 상호운용성과 커뮤니티 전반의 도입을 촉진하기 위해.
이미지 분류, 강건성, 안전성 핵심 성질을 포함한 실제 세계의 다양한 벤치마크에서 도구를 평가하기 위해.
비용 동일한 AWS 하드웨어와 자동화된 평가 파이프라인을 통해 재현 가능성과 공정성을 확보하기 위해.
대규모 벤치마크와 결과 분석을 통해 현재 검증 도구의 강점, 약점 및 추세를 파악하기 위해.

제안 방법

일致된 입력 표현을 위해 ONNX 형식을 사용한 표준화된 신경망 모델과 VNN-LIB 형식을 사용한 사양.
모든 참가자에게 동일한 비용의 하드웨어를 보장하기 위해 CPU/GPU 조정 가능 설정을 가진 AWS 인스턴스를 사용한 통일된 평가 파이프라인.
GitHub 기반 이슈 추적과 스크립트 기반 도구 실행을 통한 자동화된 제출 및 테스트 워크플로우 구현.
각 도구에 대해 필수 설치, 설정 및 실행 스크립트를 포함한 일致된 도구 인터페이스를 강제 적용.
정확한 증명 또는 반례는 10점, 잘못된 결과는 -150점의 벌점, 타임아웃 또는 오류는 0점으로 평가하는 점수 체계 적용.
정확한 성능 비교를 위해 총 실행 시간에서 도구 고유의 시작 오버헤드를 측정하고 차감.

실험 결과

연구 질문

RQ1정규 및 실제 세계의 다양한 벤치마크에서 현재의 신경망 검증 도구들이 정확성과 효율성 측면에서 어떻게 성능을 내는가?
RQ2표준 형식(ONNX, VNN-LIB)과 자동화된 평가 파이프라인은 도구 비교의 재현 가능성과 공정성에 얼마나 기여하는가?
RQ3복잡한 안전성 핵심 신경망 성질에서 가장 높은 강건성과 확장성을 보이는 검증 도구는 무엇인가?
RQ4CPU 대비 GPU 등의 다양한 하드웨어 구성이 도구 간 검증 성능에 어떤 영향을 미치는가?
RQ5도구 상호운용성, 사양 해석, 반례 검증에서의 주요 과제는 무엇인가?

주요 결과

Vit 2023은 정규 트랙에서 100%의 완벽한 벤치마크 점수를 기록하여, 높은 효율성과 강건성을 바탕으로 모든 12개의 벤치마크를 성공적으로 검증하였다.
Yolo 2023은 확장 트랙에서 뛰어난 성능을 보였으며, 20개의 인스턴스 중 16개에서 100% 정확도를 달성했고, 평균 검증 시간은 10초 이내였다.
PyRAT는 작은 벤치마크에서는 높은 정확도를 보였지만, 더 큰 네트워크에서는 어려움을 겪었으며, 여러 번의 타임아웃과 출력 누락이 발생했다.
반례 출력 불일치가 12%의 경우에서 관찰되어, 유효성을 확인하기 위해 onnxruntime 추론을 사용하여 재평가하였다.
자동화된 평가 파이프라인이 20개의 벤치마크에서 100개 이상의 인스턴스를 성공적으로 처리했으며, 일관된 결과와 최소한의 인간 간섭을 보였다.
Vit 2023은 검증된 인스턴스에서 평균 실행 시간 15.5초를 기록하여 확장 트랙의 다른 도구들보다 뚜렷하게 빠른 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.