[論文レビュー] Wasserstein Adversarial Examples via Projected Sinkhorn Iterations
Wasserstein距離を敵対的攻撃の脅威モデルとして導入し、Waterstein adversarial examplesを生成するためのSinkhornベースの高速投射法を開発、さらに adversarial training と頑健性分析を行う。
A rapidly growing area of work has studied the existence of adversarial examples, datapoints which have been perturbed to fool a classifier, but the vast majority of these works have focused primarily on threat models defined by $\ell_p$ norm-bounded perturbations. In this paper, we propose a new threat model for adversarial attacks based on the Wasserstein distance. In the image classification setting, such distances measure the cost of moving pixel mass, which naturally cover "standard" image manipulations such as scaling, rotation, translation, and distortion (and can potentially be applied to other settings as well). To generate Wasserstein adversarial examples, we develop a procedure for projecting onto the Wasserstein ball, based upon a modified version of the Sinkhorn iteration. The resulting algorithm can successfully attack image classification models, bringing traditional CIFAR10 models down to 3% accuracy within a Wasserstein ball with radius 0.1 (i.e., moving 10% of the image mass 1 pixel), and we demonstrate that PGD-based adversarial training can improve this adversarial accuracy to 76%. In total, this work opens up a new direction of study in adversarial robustness, more formally considering convex metrics that accurately capture the invariances that we typically believe should exist in classifiers. Code for all experiments in the paper is available at https://github.com/locuslab/projected_sinkhorn.
研究の動機と目的
- L_pノルムを超える敵対的摂動の研究動機づけのため、Wasserstein距離を用いて知覚的な画像変換を捉える。
- 反復的な敵対的攻撃を可能にするWassersteinボールへの高速・近似射影を開発する。
- 標準モデルに対する攻撃有効性を示し、Wassersteinに焦点を当てた敵対的訓練による改善を示す。
- Wasserstein摂動と既存の証明可能な防御・証明の互換性と限界を探る。
提案手法
- Wasserstein-ボール射影をエントロピー正則化最適化として定式化し、Sinkhorn風アルゴリズムを可能にする。
- 補助変数(alpha、beta、psi)を用いた二重表現を導出し、実用的な更新則を得る。
- Wasserstein-ボール射影を効率的に計算するProjected Sinkhorn反復(アルゴリズム2)を提供する。
- 質量移動をk×k隣接領域に制限する局所輸送計画を導入し、計算量をO(n k^2)に削減する。
- 射影をPGD風の敵対的攻撃と敵対的訓練(アルゴリズム1)に組み込む。
- デュアル性ベースの証明可能な証明と互換性を分析し、Wasserstein摂動下での頑健性の根本的ギャップを論じる。
実験結果
リサーチクエスチョン
- RQ1L_pノルムを超える知覚的変換を捉える自然で構造を保つ摂動モデルとして、Wasserstein距離は有効か。
- RQ2Iterativeな敵対的攻撃と訓練を可能にするため、Wassersteinボールへの射影を効率的に実現できるか。
- RQ3Wassersteinベースの敵対的例は従来の摂動と比べて異なる頑健性特性を示すか、そして敵対的訓練はそれを緩和できるか。
- RQ4Wasserstein摂動に対して既存の証明可能な頑健性手法は互換性があるか、制限は何か。
- RQ5MNISTとCIFAR-10における標準モデルと証明可能に頑健なモデルに対するWasserstein攻撃の実務的影響はどの程度か。
主な発見
| Data set | Model | Nominal Accuracy |
|---|---|---|
| MNIST | Standard | 98.90% |
| MNIST | Binarize | 98.73% |
| MNIST | Robust | 98.20% |
| MNIST | Adv. Training | 96.95% |
| CIFAR10 | Standard | 94.70% |
| CIFAR10 | Robust | 66.33% |
| CIFAR10 | Adv. Training | 80.69% |
- Wasserstein摂動は画像内容を反映した構造化された敵対的変化を生み出し、典型的なl_p摂動とは異なる。
- Projected Sinkhorn反復を用いた高速な近似Wasserstein射影により、Wassersteinボール内で効果的なPGD風攻撃が可能。
- Wasserstein摂動下での敵対的訓練は敵対的精度を大幅に改善(例:CIFAR-10で攻撃下の精度が3%から76%へ向上)。
- l_infty摂動に対して証明可能に頑健なモデルは、Wasserstein攻撃への頑健性がある程度転移するが、完全には頑健ではない。
- 区間境界に基づく既存の証明可能防御にはWasserstein摂動に対する根本的な制限があり、新しい検証アプローチが必要である。
- CIFAR-10では、標準モデルに対してWasserstein攻撃が依然として強力である(例:ε=0.1で攻撃成功率97%)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。