QUICK REVIEW

[論文レビュー] DeepHunter: Hunting Deep Neural Network Defects via Coverage-Guided Fuzzing

Xiaofei Xie, Lei Ma|arXiv (Cornell University)|Sep 4, 2018

Adversarial Robustness in Machine Learning参考文献 53被引用数 25

ひとこと要約

DeepHunterは、メタモーフィックな変異と6種類のプラグイン可能で多層的な粒度のカバレッジ基準を用いて、意味を保ったままテスト入力を生成し、カバレッジをガイドするファズィングフレームワークであり、深層ニューラルネットワーク（DNN）における欠陥を体系的かつ効果的に検出する。これは、実装用に量子化された際に生じるモデルの誤動作を含め、テストカバレッジを著しく向上させ、モデルの誤りを検出する。

ABSTRACT

In company with the data explosion over the past decade, deep neural network (DNN) based software has experienced unprecedented leap and is becoming the key driving force of many novel industrial applications, including many safety-critical scenarios such as autonomous driving. Despite great success achieved in various human intelligence tasks, similar to traditional software, DNNs could also exhibit incorrect behaviors caused by hidden defects causing severe accidents and losses. In this paper, we propose DeepHunter, an automated fuzz testing framework for hunting potential defects of general-purpose DNNs. DeepHunter performs metamorphic mutation to generate new semantically preserved tests, and leverages multiple plugable coverage criteria as feedback to guide the test generation from different perspectives. To be scalable towards practical-sized DNNs, DeepHunter maintains multiple tests in a batch, and prioritizes the tests selection based on active feedback. The effectiveness of DeepHunter is extensively investigated on 3 popular datasets (MNIST, CIFAR-10, ImageNet) and 7 DNNs with diverse complexities, under a large set of 6 coverage criteria as feedback. The large-scale experiments demonstrate that DeepHunter can (1) significantly boost the coverage with guidance; (2) generate useful tests to detect erroneous behaviors and facilitate the DNN model quality evaluation; (3) accurately capture potential defects during DNN quantization for platform migration.

研究の動機と目的

深層ニューラルネットワーク（DNN）のソフトウェア品質保証のためのスケーラブルで自動化されたテストフレームワークの不足に取り組む。
従来のファズィングの限界を克服するため、入力の意味を保ちながら変異を加えるDNNに特化した変異戦略を設計する。
複数のカバレッジ基準を用いたフィードバックガイドドテスト生成を可能にし、テストの多様性と欠陥検出能力を向上させる。
DNNの品質評価および欠陥検出における、さまざまなカバレッジ基準の有効性を調査する。
ResNet-50のような複雑なモデルと実世界のデータセット上で、スケーラビリティと有効性を実証する。

提案手法

意味を保ちつつ変異を加えるメタモーフィック変異を用いて、意味的整合性を保ちつつバリエーションを持つ新しいテスト入力を生成する。
ファズィング中における並列実行とスループットの向上を図るため、テスト入力のバッチを維持する。
6種類の異なるニューロンカバレッジ基準（例：ニューロン、レイヤー、フィルターレベルカバレッジなど）を異なる粒度で用いた、プラグイン可能なフィードバックアーキテクチャを導入する。
カバレッジ基準からのアクティブなフィードバックを用いて変異戦略をガイドし、モデルの動作領域の新規または未探索領域を重点的に探索するテストケースを優先する。
カバレッジフィードバックを活用して、変異操作を動的に調整し、エッジケースや誤動作を引き起こす可能性の高い挙動を発見する可能性を高める。
MNIST、CIFAR-10、ImageNetを含む多様なDNNアーキテクチャ、特にResNet-50を用いた大規模な評価をサポートする。

実験結果

リサーチクエスチョン

RQ1複数の多層的粒度のカバレッジ基準を用いたカバレッジガイドドファズィングは、深層ニューラルネットワークにおけるテストカバレッジを効果的に向上させることができるか？
RQ2異なるカバレッジ基準は、DNNファズィングにおける欠陥検出の効率性と有効性にどのように影響を与えるか？
RQ3DeepHunterは、DNN開発段階およびプラットフォーム移行のための量子化段階で誤動作を検出できる程度はどの程度か？
RQ4ImageNet や ResNet-50 のような大規模な実世界のDNNとデータセットに対しても、このフレームワークはスケーラブルか？
RQ5テストの多様性、カバレッジ、欠陥検出能力の観点から、TensorFuzz などの既存手法と比較してDeepHunterはどのように差をつけるか？

主な発見

DeepHunterは、全6つのテストカバレッジ基準において顕著なカバレッジ向上を達成し、フィードバックガイドド変異の有効性を示している。
フレームワークは、特にエッジデバイスへの実装に不可欠な量子化段階でのモデル障害を含め、DNNにおける誤動作を効果的に検出している。
意味を保ったメタモーフィック変異により、有効で多様な入力を生成でき、これはランダム変異や構文的変異よりも効果的である。
複数のプラグイン可能なカバレッジ基準の使用により、単一の指標フィードバックに比べ、モデル挙動のより包括的な探索が可能になった。
DeepHunterは、ResNet-50 や ImageNet のような大規模なモデルおよびデータセットに対しても、効果的にスケーリング可能であり、大規模な実証評価を可能にしている。
多様な変異タイプと多面的なフィードバックをサポートする点で、TensorFuzz などの既存手法を上回っており、より広範な欠陥検出が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。