[論文レビュー] Cross-Domain Transferability of Adversarial Perturbations
本論文は、分布非依存かつドメイン非依存の生成フレームワークを提案し、 relativistic discriminator を用いて異なるドメイン(例:絵画、漫画、医用画像から ImageNet)を跨いで分類器を欺くことができる普遍的敵対的摂動を高い転送性で学習する。
Adversarial examples reveal the blind spots of deep neural networks (DNNs) and represent a major concern for security-critical applications. The transferability of adversarial examples makes real-world attacks possible in black-box settings, where the attacker is forbidden to access the internal parameters of the model. The underlying assumption in most adversary generation methods, whether learning an instance-specific or an instance-agnostic perturbation, is the direct or indirect reliance on the original domain-specific data distribution. In this work, for the first time, we demonstrate the existence of domain-invariant adversaries, thereby showing common adversarial space among different datasets and models. To this end, we propose a framework capable of launching highly transferable attacks that crafts adversarial patterns to mislead networks trained on wholly different domains. For instance, an adversarial function learned on Paintings, Cartoons or Medical images can successfully perturb ImageNet samples to fool the classifier, with success rates as high as $\sim$99\% ($\ell_{\infty} \le 10$). The core of our proposed adversarial function is a generative network that is trained using a relativistic supervisory signal that enables domain-invariant perturbations. Our approach sets the new state-of-the-art for fooling rates, both under the white-box and black-box scenarios. Furthermore, despite being an instance-agnostic perturbation function, our attack outperforms the conventionally much stronger instance-specific attack methods.
研究の動機と目的
- 異なる画像ドメインとモデル間で転送するドメイン不変の adversaries の存在を実証する。
- ターゲットドメインデータを使用せずに高度に転送性のある普遍的摂動を作成する生成フレームワークを開発する。
- perturbed と clean なサンプル間の相対的な監視信号を導入して攻撃転送性を向上させる。
提案手法
- 源ドメインの画像に適用される摂動を生成する生成器 G_theta を用い、摂動を l_infinity ノルムの制約内に収める。
- clean および perturbed 画像のクラス予測を出力する識別器 D_psi を用いて摂動生成を指向させる。
- perturbed と clean の予測を比較して欺瞞ギャップを最大化する相対化クロスエントロピー損失(RCE)を導入する(式 (Eq. 3))。
- ターゲット攻撃の場合、ターゲット付きクロスエントロピーとクリーン画像クロスエントロピーを組み合わせる(式 (Eq. 4))。
- 訓練はターゲットドメインのラベルやデータを使用せず、源ドメインのみで実施する。
- 生成された摂動を識別器に前向き送信する前に摂動予算を満たすように射影する。
実験結果
リサーチクエスチョン
- RQ1One domain の adversarial 摂動がターゲットドメインデータにアクセスせずに完全に異なるドメインの分類器を欺けるか?
- RQ2相対論的損失は敵対的生成において標準のクロスエントロピーよりクロスドメイン転送性を改善するか?
- RQ3提案された普遍的摂動関数は white-box, black-box, およびクロスドメインブラックボックス設定でどのように機能するか?
- RQ4訓練ダイナミクスとガウシアン平滑化は自然訓練されたモデル対してと敵対訓練されたモデル対して転送性にどのような影響を与えるか?
主な発見
- 絵画、コミック、ChestX の摂動は ImageNet の分類器を高い欺瞞率で攪乱でき、設定によっては約99% に達する(l_infinity ≤ 10)。
- 相対論的敵対的摂動(RAP)フレームワークは white-box および black-box 転送シナリオの両方で標準および従来法を上回る。
- universal 摂動関数はモデル間およびドメイン間の転送で最先端のインスタンス固有攻撃を凌ぎ、欺瞞率に大きな平均利得をもたらす。
- クロスドメインの黒箱実験でも、攻撃者がターゲットモデルのアクセス、アーキテクチャ、データ分布の知識を欠く状況で substantial な欺瞞率を示す。
- 生成器出力のガウシアン平滑化は敵対的に訓練されたモデルに対する転送性をさらにはっきりと高める。
- 訓練ダイナミクスはエポック数を増やすと自然訓練モデルに対する転送性が向上する一方、敵対訓練モデルには低下させる可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。