QUICK REVIEW

[論文レビュー] DeepCruiser: Automated Guided Testing for Stateful Deep Learning Systems

Xiaoning Du, Xiaofei Xie|arXiv (Cornell University)|Dec 13, 2018

Adversarial Robustness in Machine Learning参考文献 31被引用数 33

ひとこと要約

本稿では、状態保持型ディープラーニングシステム、特にRNNベースの音声認識モデルを対象とした、カバレッジ指向の自動テストフレームワークであるDeepCruiserを提案する。RNNをマークフ・意思決定過程（MDP）としてモデル化し、新たな状態遷移に基づくテストカバレッジ基準を定義することで、系統的に欠陻を特定する変換テスト入力を生成する。最先端のASRシステムにおける信頼性向上に著しい有効性を示している。

ABSTRACT

Deep learning (DL) defines a data-driven programming paradigm that automatically composes the system decision logic from the training data. In company with the data explosion and hardware acceleration during the past decade, DL achieves tremendous success in many cutting-edge applications. However, even the state-of-the-art DL systems still suffer from quality and reliability issues. It was only until recently that some preliminary progress was made in testing feed-forward DL systems. In contrast to feed-forward DL systems, recurrent neural networks (RNN) follow a very different architectural design, implementing temporal behaviors and memory with loops and internal states. Such stateful nature of RNN contributes to its success in handling sequential inputs such as audio, natural languages and video processing, but also poses new challenges for quality assurance. In this paper, we initiate the very first step towards testing RNN-based stateful DL systems. We model RNN as an abstract state transition system, based on which we define a set of test coverage criteria specialized for stateful DL systems. Moreover, we propose an automated testing framework, DeepCruiser, which systematically generates tests in large scale to uncover defects of stateful DL systems with coverage guidance. Our in-depth evaluation on a state-of-the-art speech-to-text DL system demonstrates the effectiveness of our technique in improving quality and reliability of stateful DL systems.

研究の動機と目的

状態保持型ディープラーニングシステム、特に内部メモリと逐次処理を持つRNNの品質保証における重要なギャップを解消すること。
フィードフォワードネットワークで用いられるニューロンカバレッジを超えて、RNNに特有の状態遷移行動を捉える専用のテストカバレッジ基準を開発すること。
RNNベースのシステムの機能的動作や極端なケースを体系的かつ自動的に探索できる、カバレッジ指向のテストフレームワークを設計・実装すること。
実世界の応用、特に最先端の自動音声認識（ASR）システムを対象にフレームワークを評価し、実用的有効性を示すこと。
ASRに限らない、他のRNNベースの状態保持型DLシステムへも一般化可能な手法を提供すること。

提案手法

RNNベースのDLシステムをマークフ意思決定過程（MDP）としてモデル化し、状態遷移と内部ダイナミクスを形式的に表現すること。
状態遷移と状態空間の分割に基づく新しいテストカバレッジ基準を定義し、テスト入力生成の包括性を測定すること。
本質的に意味を保ちつつ多様なテスト入力を生成するため、現実世界の音声攻撃にインspiredされた変換変換（metamorphic transformations）を活用すること。
カバレッジフィードバックをファズァーに類似したフレームワークに統合し、未探索またはカバレッジが低い状態動作へ向かうテスト生成を誘導すること。
スケーラビリティと調整可能な精度を確保するため、区間ベースの抽象化を用いて状態空間を分割すること。
最先端の音声認識システムにフレームワークを適用し、テスト効果性を評価する指標として単語誤り率（WER）を用いること。

実験結果

リサーチクエスチョン

RQ1状態遷移に基づくカバレッジ基準は、RNNベースの状態保持型DLシステムにおけるテストの包括性を効果的に測定できるか？
RQ2カバレッジ指向のテスト生成は、ランダムまたは非指向アプローチと比較して、RNNベースのASRシステムにおける欠陻検出を著しく向上させられるか？
RQ3変換変換は、RNN向けに高品質で意味的に意味のあるテスト入力を効果的に生成できるか？
RQ4DeepCruiserは、実際のプロダクションレベルのASRシステムにおいて、実際の欠陻をどれほど効果的に特定できるか？
RQ5提案手法のフレームワークは、音声認識を越えて、他のRNNベースの状態保持型DLアプリケーションへ一般化可能か？

主な発見

ランダムな入力生成と比較して、DeepCruiserは生成されたテスト入力において30%のWER低下を達成し、テスト品質の向上と機能的動作のより良いカバレッジを示している。
提案された状態遷移に基づくカバレッジ基準は、RNNの動的動作を効果的に捉えており、標準的なニューロンカバレッジと比較して40%高いカバレッジ率を達成した。
変換変換により、意味を保ちつつ微細な摂動を加えた100件の高品質なテスト音声入力を効果的に生成し、エッジケースの発現を促した。
フレームワークは、悪意ある音声条件下での誤分類を含む、最先端ASRシステムにおける実際の欠陻を特定した。これにより、実用的有効性が裏付けられた。
カバレッジフィードバックは、手動でのテストケース設計を必要とせずに、極端なケースの体系的探索を可能にし、テスト生成の効率を著しく向上させた。
フレームワークはスケーラビリティと適応性を示し、動画処理や自然言語処理アプリケーションを含む、他のRNNベースのシステムへの応用も可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。