QUICK REVIEW

[論文レビュー] Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks

Yinpeng Dong, Tianyu Pang|arXiv (Cornell University)|Apr 5, 2019

Adversarial Robustness in Machine Learning参考文献 25被引用数 43

ひとこと要約

本論文は、翻訳不変の敵対的攻撃を提案し、翻訳された画像のアンサンブルに対して最適化することで転移性を高め、ディフェンスに対してブラックボックスで高い成功率を達成する。

ABSTRACT

Deep neural networks are vulnerable to adversarial examples, which can mislead classifiers by adding imperceptible perturbations. An intriguing property of adversarial examples is their good transferability, making black-box attacks feasible in real-world applications. Due to the threat of adversarial attacks, many methods have been proposed to improve the robustness. Several state-of-the-art defenses are shown to be robust against transferable adversarial examples. In this paper, we propose a translation-invariant attack method to generate more transferable adversarial examples against the defense models. By optimizing a perturbation over an ensemble of translated images, the generated adversarial example is less sensitive to the white-box model being attacked and has better transferability. To improve the efficiency of attacks, we further show that our method can be implemented by convolving the gradient at the untranslated image with a pre-defined kernel. Our method is generally applicable to any gradient-based attack method. Extensive experiments on the ImageNet dataset validate the effectiveness of the proposed method. Our best attack fools eight state-of-the-art defenses at an 82% success rate on average based only on the transferability, demonstrating the insecurity of the current defense techniques.

研究の動機と目的

可搬性の高い敵対的例に対する防御の脆弱性を動機づけ、対処する。
防御特有の識別領域への感度を低減する翻訳不変の攻撃を提案する。
TI攻撃を可能にするカーネルによる畳み込みを介した効率的な勾配計算手法を開発する。
ImageNet上で8つの防御を対象に評価し、ベースライン攻撃と比較して有効性を示す。

提案手法

損失の加重和を最大化するよう、翻訳された画像のアンサンブルを最適化する攻撃を定式化する。
翻訳演算子 T_ij と重み行列 W を導入して、翻訳不変の目的関数を作成する（Eq. 7）。
小さなシフトに対して翻訳不変性を近似すると、勾配畳み込み計算を W * ∇x J として許容する。
未翻訳画像の勾配を事前定義カーネルと畳み込んで勾配を計算し、TI攻撃更新を効率化する。
TIを FGSM、MI-FGSM、DIM に組み込み、TI-FGSM、TI-MI-FGSM、TI-DIM の更新を得る（例: x_adv = x_real + ε sign(W * ∇x J)）。
カーネルの選択肢（uniform、linear、Gaussian）を提供し、それらが転移性に与える影響を比較する。

実験結果

リサーチクエスチョン

RQ1転移可能な敵対的例に頑健な防御は、TIベースの転送攻撃に対して依然として安全か？
RQ2入力の翻訳と勾配の平均化が、防御モデル間の敵対的例の転移性にどのように影響するか？
RQ3カーネル設計（uniform、linear、Gaussian）とカーネルサイズが、防御されたモデルに対するブラックボックス成功を最大化するか？
RQ4翻訳不変攻撃は、既存の勾配ベース攻撃パイプライン内で効率的に実装できるか？
RQ5TI-Attacks の使用がアンサンブルモデルの転送性および異なる攻撃手法間での影響は何か？

主な発見

TI駆動の攻撃は、ベースラインと比較して8つの防御に対するブラックボックス成功率を大幅に向上させる。
TI-DIM は、4つの通常モデルを攻撃した場合、防御に対して平均82%の成功率を達成する。
カーネルの選択は重要で、Gaussian と linear カーネルが uniform を上回り、Gaussian はより強力な攻撃で良好に機能する。
カーネルサイズを15×15まで増やすと利得が得られるが、それ以上は頭打ちとなり、より滑らかな摂動を生む。
翻訳不変アプローチは、TI-FGSM、TI-MI-FGSM、TI-DIM、および単一モデル攻撃とアンサンブル攻撃の転移性を一貫して向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。