Skip to main content
QUICK REVIEW

[論文レビュー] Testing Deep Neural Networks

Youcheng Sun, Xiaowei Huang|arXiv (Cornell University)|Mar 10, 2018
Adversarial Robustness in Machine Learning参考文献 81被引用数 175
ひとこと要約

この論文はDNNに対するMC/DCに着想を得た4つのホワイトボックステスト基準を導入し、コンクロリックLPと勾配ベースの探索によるテストケース生成を実証して、カバレッジとコストのバランスを取りつつ敵対的挙動を明らかにする。

ABSTRACT

Deep neural networks (DNNs) have a wide range of applications, and software employing them must be thoroughly tested, especially in safety-critical domains. However, traditional software test coverage metrics cannot be applied directly to DNNs. In this paper, inspired by the MC/DC coverage criterion, we propose a family of four novel test criteria that are tailored to structural features of DNNs and their semantics. We validate the criteria by demonstrating that the generated test inputs guided via our proposed coverage criteria are able to capture undesired behaviours in a DNN. Test cases are generated using a symbolic approach and a gradient-based heuristic search. By comparing them with existing methods, we show that our criteria achieve a balance between their ability to find bugs (proxied using adversarial examples) and the computational cost of test case generation. Our experiments are conducted on state-of-the-art DNNs obtained using popular open source datasets, including MNIST, CIFAR-10 and ImageNet.

研究の動機と目的

  • 安全 critical な領域におけるDNNの構造化テストの必要性を動機付ける。
  • DNNの構造と意味に合わせて4つのMC/DC風カバレッジ基準を開発する。
  • 提案されたカバレッジ基準に guided されたテストケース生成のホワイトボックスフレームワークを提供する。
  • MNIST、CIFAR-10、ImageNet 上で基準を評価し、バグ検出とテスト効率を研究する。
  • 生成された敵対的例を通じてDNNの内部構造とロバスト性の分析を可能にする。

提案手法

  • 層、活性化、特徴集合を含むDNN形式を定義する。
  • 4つのカバレッジ基準を導入する:SS (Sign-Sign), VS (Value-Sign), SV (Sign-Value), VV (Value-Value)。
  • 特徴を隣接する層のニューロンの部分集合としてモデル化し、条件/決定を特徴対として定義する。
  • 特徴値の有意な変化を定量化する価値関数gを用いる。
  • 条件付け制約を満たすテストケースを生成するためにLPベースのコンクロリックテストを適用する。
  • 大規模DNNにスケールさせるための勾配降下法ベースのテストケースジェネレータを開発する。

実験結果

リサーチクエスチョン

  • RQ1MC/DC風のカバレッジ基準はDNNにおける因果関係を捉え、効果的なテストケース生成を導くことができるか。
  • RQ2SS、VS、SV、VV基準は敵対的な例の発見と計算コストのバランス取りにおいてどう比較されるか。
  • RQ3提案された基準は大規模なネットワークとデータセット( MNIST、CIFAR-10、ImageNet)にスケールするか。
  • RQ4新しい基準は既存のニューロンベースのカバレッジ基準とどのように関連し、改善するか。

主な発見

  • 4つの基準はMC/DCの概念をDNNに拡張し、層間の因果的相互作用を捉える。
  • SSカバレッジは決定特徴に影響を与える条件特徴の符号の変化を独立してテストする。
  • VS、SV、VVは値と符号の変化の異なる組み合わせをカバーし、非線形なDNN挙動を捉える。
  • コンクロリックLPベースのテスト生成は、小〜中規模のDNNに対しては効率的なテストケースを生み出し、勾配ベースの方法は大規模DNNにスケールする。
  • MNIST、CIFAR-10、ImageNetの実験は、基準がバグ検出(敵対的例)を導き、DNNの安全性と内部構造に関する洞察を提供できることを示した。
  • 提案された基準は従来のニューロンベースの基準よりも強いカバレッジを課し、より豊かなテストを高コストで提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。