Skip to main content
QUICK REVIEW

[論文レビュー] The Third International Verification of Neural Networks Competition (VNN-COMP 2022): Summary and Results

Mark Niklas Müller, Christopher Brix|arXiv (Cornell University)|Dec 20, 2022
Adversarial Robustness in Machine Learning被引用数 28
ひとこと要約

このレポートは VNN-COMP 2022 を要約し、規則、ベンチマーク、参加ツール、結果、教訓を、標準化された形式と AWS ベースの評価とともに詳述する。

ABSTRACT

This report summarizes the 3rd International Verification of Neural Networks Competition (VNN-COMP 2022), held as a part of the 5th Workshop on Formal Methods for ML-Enabled Autonomous Systems (FoMLAS), which was collocated with the 34th International Conference on Computer-Aided Verification (CAV). VNN-COMP is held annually to facilitate the fair and objective comparison of state-of-the-art neural network verification tools, encourage the standardization of tool interfaces, and bring together the neural network verification community. To this end, standardized formats for networks (ONNX) and specification (VNN-LIB) were defined, tools were evaluated on equal-cost hardware (using an automatic evaluation pipeline based on AWS instances), and tool parameters were chosen by the participants before the final test sets were made public. In the 2022 iteration, 11 teams participated on a diverse set of 12 scored benchmarks. This report summarizes the rules, benchmarks, participating tools, results, and lessons learned from this iteration of this competition.

研究の動機と目的

  • 共通フォーマット(ネットワークには ONNX、仕様には VNN-LIB)を用いてニューラルネット検証ワークフローを標準化する。
  • 同等のコストのハードウェアと自動評価パイプラインを通じて、公平で客観的なツール比較を可能にする。
  • 将来の開発を導くために、ベンチマーク、規則、参加ツール、最終結果を文書化する。
  • 得られた教訓と次回の VNN-COMP イテレーションに向けた潜在的な改善を共有する。

提案手法

  • ネットワークには ONNX、仕様には VNN-LIB を採用して入力と反例のフォーマットを標準化する。
  • AWS インスタンスを介して等価コストのハードウェアを提供し、ツール間の公正な比較を可能にする。
  • ベンチマークとツールの自動提出・検証パイプラインを実装する。
  • インスタンスごとおよびベンチマークごとの正規化を含む採点システムを定義し、時間ベースのボーナスとオーバーヘッド補正を含む。
  • 再現性を確保するため、ツール著者から完全自動化されたインストールと実行スクリプトを要求する。
  • ベンチマークと最終結果を公の GitHub リポジトリに集約する。

実験結果

リサーチクエスチョン

  • RQ1標準化されたフォーマットとハードウェアの下で、さまざまなベンチマークの集合に対して検証ツールはどのように機能するか?
  • RQ2自動パイプラインとオーバーヘッド補正が公正なツール比較に与える影響は?
  • RQ32022年の VNN-COMP の経験から得られる教訓と、今後の競技会の改善点は何か?

主な発見

  • 11 チームが参加し、12 のベンチマークが評価された。
  • 競技は標準化されたネットワーク/仕様フォーマットと自動化された AWS ベースの評価パイプラインを強制した。
  • 正確性、反例発見、時間ベースのボーナスを、オーバーヘッド補正済みの実行時間と組み合わせた詳細な採点方式。
  • 結果とベンチマークが公開・議論され、規則、ベンチマーク、およびツール提出は GitHub で公開されていた。
  • 反例の立証責任は違反を主張するツールに課され、結果の健全性を保証した。
  • 本レポートは得られた教訓と VNN-COMP イテレーションの将来の改善点を文書化している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。