Skip to main content
QUICK REVIEW

[論文レビュー] Model Agnostic Dual Quality Assessment for Adversarial Machine Learning and an Analysis of Current Neural Networks and Defenses.

Danilo Vargas, Shashank Kotyan|arXiv (Cornell University)|Jun 14, 2019
Adversarial Robustness in Machine Learning被引用数 6
ひとこと要約

この論文は、敵対的機械学習評価におけるバイアスを是正するため、モデルに依存しない二重品質評価フレームワークを提案する。これにより、耐性レベルと、One-Pixel攻撃の12%の摂動で実現可能な新しい$L_\infty$ブラックボックス攻撃を導入する。実験の結果、現在のモデルおよび防御手法は、あらゆる耐性レベルにおいて依然として脆弱であることが判明し、$L_1$/$L_2$指標だけでは偽の敵対的サンプルを検出できないことが示された。

ABSTRACT

There exists a vast number of adversarial attacks and defences for machine learning algorithms of various types which makes assessing the robustness of algorithms a daunting task. To make matters worse, there is an intrinsic bias in these adversarial algorithms. Here, we organise the problems faced: a) Model Dependence, b) Insufficient Evaluation, c) False Adversarial Samples, and d) Perturbation Dependent Results). Based on this, we propose a model agnostic dual quality assessment method, together with the concept of robustness levels to tackle them. We validate the dual quality assessment on state-of-the-art neural networks (WideResNet, ResNet, AllConv, DenseNet, NIN, LeNet and CapsNet) as well as adversarial defences for image classification problem. We further show that current networks and defences are vulnerable at all levels of robustness. The proposed robustness assessment reveals that depending on the metric used (i.e., $L_0$ or $L_\infty$), the robustness may vary significantly. Hence, the duality should be taken into account for a correct evaluation. Moreover, a mathematical derivation, as well as a counter-example, suggest that $L_1$ and $L_2$ metrics alone are not sufficient to avoid spurious adversarial samples. Interestingly, the threshold attack of the proposed assessment is a novel $L_\infty$ black-box adversarial method which requires even less perturbation than the One-Pixel Attack (only $12\%$ of One-Pixel Attack's amount of perturbation) to achieve similar results. Code is available at this http URL.

研究の動機と目的

  • 敵対的機械学習評価における根本的なバイアス、すなわちモデル依存性、不十分な評価、偽の敵対的サンプル、摂動依存性の結果を是正すること。
  • 多様なニューラルネットワークおよび防御手法において一貫性があり包括的な耐性評価を可能にする、モデルに依存しないフレームワークの開発。
  • 異なる敵対的摂動条件におけるモデル性能を評価するための耐性レベルの概念を導入すること。
  • 現在の最先端モデルおよび防御手法が、あらゆる耐性レベルにおいて依然として脆弱であることを示すこと。
  • $L_1$および$L_2$指標だけでは信頼できる敵対的サンプル検出が不十分であり、$L_0$および$L_\infty$指標を用いた二重評価の必要性を検証すること。

提案手法

  • 異なる敵対的摂動特性を捉えるために、$L_0$および$L_\infty$ノルムの両方を用いて耐性を評価する二重品質評価手法を提案する。
  • 摂動強度の異なる段階でのモデル挙動を体系的に分析できるよう、耐性レベルの概念を導入する。
  • One-Pixel攻撃に比べて摂動量が12%にまで減少するが、同等の成功率を達成できる新しい$L_\infty$ブラックボックス敵対的攻撃を開発する。
  • 数学的導出と反例を用いて、$L_1$および$L_2$指標だけでは偽の敵対的サンプルを防止できないことを示す。
  • WideResNet、ResNet、AllConv、DenseNet、NIN、LeNet、CapsNetを含む多様な最先端モデルを用いてフレームワークを検証する。
  • 画像分類における複数の敵対的防御を評価する応用により、アーキテクチャを問わずモデルに依存しない評価を実現する。

実験結果

リサーチクエスチョン

  • RQ1二重品質評価フレームワークは、単一指標アプローチと比較して、敵対的耐性の評価をどのように改善するか?
  • RQ2現在の最先端ニューラルネットワークは、異なる耐性レベルにおいてどの程度脆弱であるか?
  • RQ3数学的分析が示唆するように、$L_1$および$L_2$指標だけでは、偽の敵対的サンプルの生成を防げるのか?
  • RQ4提案された$L_\infty$ブラックボックス攻撃は、One-Pixel攻撃などの既存手法と比較して、摂動効率がどの程度優れているか?
  • RQ5$L_0$と$L_\infty$ノルムの両方で評価した場合、耐性に顕著な差異が現れるか?

主な発見

  • 提案された二重品質評価により、$L_0$または$L_\infty$指標を使用するかによって耐性の程度が顕著に異なることが判明し、二重評価の必要性が強調された。
  • 新規の$L_\infty$ブラックボックス攻撃は、One-Pixel攻撃と同等の成功率を達成するが、摂動量はその12%にまで減少しており、より高い効率性を示している。
  • 現在の最先端モデルおよび防御手法は、あらゆる耐性レベルにおいて依然として脆弱であることが判明し、敵対的耐性における継続的なギャップが示された。
  • 数学的分析と反例により、$L_1$および$L_2$指標だけでは偽の敵対的サンプルを回避できないことが実証された。
  • 二重評価フレームワークは、耐性測定に単一のノルムに依存する既存の評価手法における不整合を露呈した。
  • フレームワークはモデルに依存せず、ResNet、DenseNet、CapsNetを含む多様なアーキテクチャへも成功裏に適用可能であり、広範な適用可能性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。