[論文レビュー] Delving into Transferable Adversarial Examples and Black-box Attacks
この論文は ImageNet規模のモデルに対する敵対的例の転移性を研究し、非ターゲット転移は一般的である一方、ターゲット転移はアンサンブルベースの手法を用いないと希であることを示し、Clarifai.com へのブラックボックス転移を実証する。
An intriguing property of deep neural networks is the existence of adversarial examples, which can transfer among different architectures. These transferable adversarial examples may severely hinder deep neural network-based applications. Previous works mostly study the transferability using small scale datasets. In this work, we are the first to conduct an extensive study of the transferability over large models and a large scale dataset, and we are also the first to study the transferability of targeted adversarial examples with their target labels. We study both non-targeted and targeted adversarial examples, and show that while transferable non-targeted adversarial examples are easy to find, targeted adversarial examples generated using existing approaches almost never transfer with their target labels. Therefore, we propose novel ensemble-based approaches to generating transferable adversarial examples. Using such approaches, we observe a large proportion of targeted adversarial examples that are able to transfer with their target labels for the first time. We also present some geometric studies to help understanding the transferable adversarial examples. Finally, we show that the adversarial examples generated using ensemble-based approaches can successfully attack Clarifai.com, which is a black-box image classification system.
研究の動機と目的
- 大規模 ImageNet モデル間での非ターゲット敵対的例の転移性を評価する。
- ターゲット付き敵対的転移性とそれがどの程度発生するかを調査する。
- ターゲット攻撃の転移性を改善するためのアンサンブルベースの手法を開発する。
- 転移性を理解するために大規模モデルの幾何学的性質を検討する。
- 実世界のサービス(Clarifai.com)へのブラックボックス転移を実証する。
提案手法
- 最適化ベース、快速勾配法(FG)、および快速勾配符号法(FGS)を用いて、複数のアーキテクチャに対して非ターゲットおよびターゲット攻撃を比較する。
- 検討対象のすべてのモデルで正しく分類される100枚のImageNet検証画像について転移性を評価する。
- 複数モデルを同時に標的とする敵対的例を生成するためのアンサンブルベースの最適化を導入する。
- 勾配方向と決定境界を分析し、なぜ敵対的例が転移するのかを理解する。
- 実在のブラックボックスサービス(Clarifai.com)に対して敵対的例をテストする。
実験結果
リサーチクエスチョン
- RQ1大規模ImageNetモデル間で非ターゲット敵対的例の転移性はどの程度か?
- RQ2モデル間でターゲット敵対的例の転移性はどの程度か、転移を改善できるか?
- RQ3アンサンブルベースのアプローチは複数モデルに跨るターゲット転移性を高めるか?
- RQ4大規模CNNの幾何学的性質は転移性を説明するか(例:勾配の直交性、決定境界の整合性)?
- RQ5未知のモデルとデータを用いるブラックボックスのオンライン分類器(Clarifai.com)へ敵対的例が転移できるか?
主な発見
- 非ターゲット敵対的例はImageNetモデル間で大きな転移性を示し、出所モデルと対象モデルの組み合わせによって漏洩度が異なる。
- ターゲット敵対的例は既存の単一モデル手法で転移が乏しい。アンサンブルベースの生成は複数のモデルに跨るターゲット転移性を大幅に高める。
- アンサンブルベースのターゲット攻撃は複数のモデルに対して高い転移率を達成するが、転移は普遍的ではなくターゲットモデルに依存する。
- 異なるモデル間の勾配方向はほぼ直交しており、決定境界は整合しているため、転移現象を部分的に説明する。
- アンサンブル法で生成された敵対的例は、訓練データとラベルが不明な実世界のブラックボックスサービス(Clarifai.com)へ転移できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。