Skip to main content
QUICK REVIEW

[論文レビュー] The Second International Verification of Neural Networks Competition (VNN-COMP 2021): Summary and Results

Stanley Bak, Changliu Liu|arXiv (Cornell University)|Aug 31, 2021
Adversarial Robustness in Machine Learning参考文献 51被引用数 43
ひとこと要約

包括的なレポートで、VNN-COMP 2021 の規則、参加ツール、ベンチマーク、結果、および公正で標準化されたニューラルネットワーク検証競技から学んだ教訓を詳述します。

ABSTRACT

This report summarizes the second International Verification of Neural Networks Competition (VNN-COMP 2021), held as a part of the 4th Workshop on Formal Methods for ML-Enabled Autonomous Systems that was collocated with the 33rd International Conference on Computer-Aided Verification (CAV). Twelve teams participated in this competition. The goal of the competition is to provide an objective comparison of the state-of-the-art methods in neural network verification, in terms of scalability and speed. Along this line, we used standard formats (ONNX for neural networks and VNNLIB for specifications), standard hardware (all tools are run by the organizers on AWS), and tool parameters provided by the tool authors. This report summarizes the rules, benchmarks, participating tools, results, and lessons learned from this competition.

研究の動機と目的

  • 公正で標準化されたプラットフォームを確立し、ニューラルネットワーク検証ツールを比較する。
  • ONNX/VNNLIB形式とAWSハードウェアを用いて最先端検証手法のスケーラビリティと速度を評価する。
  • 多様なアーキテクチャと応用を網羅するベンチマークを提供し、 NN検証の進展を促す。
  • 将来の VNN-COMP の反復を指針づける教訓を要約する。

提案手法

  • 全ツールに対して標準化された入力(ONNXネットワーク、VNNLIB仕様)とハードウェア(AWS CPU/GPU)を使用する。
  • すべてのインスタンスおよびベンチマークの実行時間上限とオーバーヘッド補正手続を定義し、公正なタイミングを保証する。
  • インスタンスごと、ベンチマークごとに正解性、正解性の種類、時間ベースのボーナスを組み込んだ採点方式を実装する。
  • 12チーム/ツールにわたる結果と固定ベンチマークセットを収集・分析する。
  • 再現可能なパイプラインと公開可能なベンチマーク/スクリプトをGitHub経由で提供する。

実験結果

リサーチクエスチョン

  • RQ1標準化された条件下で、現在のNN検証ツールはスケーラビリティと速度の点でどう比較されるか。
  • RQ2多様なベンチマーク群に対して各ツールの長所と限界は何か。
  • RQ3今後の VNN-COMP の反復とNN検証研究を改善するためにどのような教訓が得られるか。
  • RQ4標準フォーマットと統制されたハードウェアは、検証手法の公正な比較にどう影響するか。

主な発見

  • 12のツールが参加し、共通のAWSベースのプラットフォーム上で評価された。
  • ACASXu、CIFAR-10のバリアント、MNISTなどを含む多様なネットワークとタスクをベンチマークとして網羅した。
  • 競技は事前に定義されたルール、タイムアウト、およびツール起動時間を補正するオーバーヘッド補正を備えた公正で再現可能なパイプラインを確立した。
  • 結果とベンチマークは公開され、客観的な比較と将来の再現性を可能にした。
  • このレポートは学んだ教訓と、今後の VNN-COMP の反復に向けた改善点を記録する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。