[論文レビュー] Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial Perturbations
本論文は、感度に基づく adversarial 攻撃(小さな摂動)に対する頑健性と、不変性に基づく adversarial 攻撃(モデルの予測を維持するが意味的変更を加えたもの)に対する脆弱性の間の根本的なトレードオフを明らかにする。ℓp-有界摂動に対する頑健性を持つ防御は、過剰な不変性を引き起こし、人間が明確に異なると認識する入力を誤分類する原因となる。これは、最先端のモデルおよび証明可能に頑健なモデルですらも、その影響を受ける。
Adversarial examples are malicious inputs crafted to induce misclassification. Commonly studied sensitivity-based adversarial examples introduce semantically-small changes to an input that result in a different model prediction. This paper studies a complementary failure mode, invariance-based adversarial examples, that introduce minimal semantic changes that modify an input's true label yet preserve the model's prediction. We demonstrate fundamental tradeoffs between these two types of adversarial examples. We show that defenses against sensitivity-based attacks actively harm a model's accuracy on invariance-based attacks, and that new approaches are needed to resist both attack types. In particular, we break state-of-the-art adversarially-trained and certifiably-robust models by generating small perturbations that the models are (provably) robust to, yet that change an input's class according to human labelers. Finally, we formally show that the existence of excessively invariant classifiers arises from the presence of overly-robust predictive features in standard datasets.
研究の動機と目的
- adversarial 訓練の意図しない結果である、意味的に重要な変化に対する過剰な不変性を調査すること。
- 感度に基づく攻撃に対する頑健性と不変性に基づく攻撃に対する脆弱性の間の根本的トレードオフを暴露すること。
- ℓp-有界摂動に対して頑健なモデルが、人間がアノテートしたラベルが変化した場合に誤りを犯す可能性があることを実証すること。
- ℓp-ノルムの頑健性が一般の adversarial 頑健性を保証すると仮定する考えを疑問視すること。
- ℓp-有界内に不変性に基づく adversarial 例を生成するための新しい攻撃フレームワークを提案すること
提案手法
- 人間のラベルを変更するがモデルの予測を維持する不変性に基づく adversarial 例を生成するための新しい攻撃を開発すること。
- ℓp-ノルム有界摂動(例:ℓ₀、ℓ∞)を用いて、最先端のモデルの頑健性半径内に収まる例を生成すること。
- 標準的な adversarially 訓練されたモデルおよび証明可能に頑健なモデル(例:ε = 0.4 の ℓ∞-頑健性)に攻撃を適用すること。
- 生成された不変性例に対するモデルの予測と人間のラベルラーの合意度を評価し、意味的不変性を測定すること。
- 回転、平行移動、ノイズを含むデータ拡張を用いて、過剰な不変性が緩和されるかをテストすること。
- 理論的分析により、標準データセットに存在する過度に頑健な予測特徴が、分類器における過剰な不変性の根本的要因であると示すこと。
実験結果
リサーチクエスチョン
- RQ1ℓp-有界摂動に対する頑健性は、入力の意味的変更に対する過剰な不変性を引き起こすか?
- RQ2最先端のモデルの ℓp-頑健性半径内に、不変性に基づく adversarial 例を生成できるか?
- RQ3不変性に基づく adversarial 例に対して、頑健なモデルの性能は防御されていないモデルと比べてどうか?
- RQ4データ拡張は、頑健なモデルにおける過剰な不変性を軽減できるか?
- RQ5標準データセットで訓練されたモデルにおける過剰な不変性の理論的起源は何か?
主な発見
- 最先端の adversarially 訓練されたモデルは、ℓ∞-摂動 ε = 0.1 に対して頑健であるにもかかわらず、不変性に基づく adversarial 例に対して人間のラベルラーと高い不一致を示す。
- 証明可能に頑健なモデル(ε = 0.4)は、自動化された不変性攻撃では人間ラベルラーとの合意度が60%にとどまり、手作業で作成された例では12%にとどまる—これはランダムな当たる確率よりも悪い。
- 非常に小さな ℓ∞-摂動(ε < 0.1)に対しても頑健なモデルですら、防御されていないモデルよりも不変性攻撃に対してより高い脆弱性を示す。
- 攻撃は、モデルの ℓp-頑健性半径内に不変性に基づく adversarial 例を成功裏に生成でき、ℓp-頑健性が一般の頑健性を意味しないことを証明した。
- 空間的変換とノイズを含むデータ拡張は人間との合意度を向上させるが、頑健なモデルにおける過剰な不変性を完全に排除することはできない。
- 理論的分析により、標準データセットに存在する過度に頑健な特徴が、分類器における過剰な不変性の根本的要因であると示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。