QUICK REVIEW

[論文レビュー] Testing Robustness Against Unforeseen Adversaries

Kaufmann, Max, Daniel Kang|arXiv (Cornell University)|Aug 21, 2019

Adversarial Robustness in Machine Learning参考文献 56被引用数 82

ひとこと要約

この論文は ImageNet-UA を導入し、未知の頑健性を評価するベンチマークと UA2 指標を提案。19 個の非 Lp 敵対者に対する未知の攻撃が従来の Lp 頑健性では捉えられない弱点を暴露する。

ABSTRACT

Adversarial robustness research primarily focuses on L_p perturbations, and most defenses are developed with identical training-time and test-time adversaries. However, in real-world applications developers are unlikely to have access to the full range of attacks or corruptions their system will face. Furthermore, worst-case inputs are likely to be diverse and need not be constrained to the L_p ball. To narrow in on this discrepancy between research and reality we introduce ImageNet-UA, a framework for evaluating model robustness against a range of unforeseen adversaries, including eighteen new non-L_p attacks. To perform well on ImageNet-UA, defenses must overcome a generalization gap and be robust to a diverse attacks not encountered during training. In extensive experiments, we find that existing robustness measures do not capture unforeseen robustness, that standard robustness techniques are beat by alternative training strategies, and that novel methods can improve unforeseen robustness. We present ImageNet-UA as a useful tool for the community for improving the worst-case behavior of machine learning systems.

研究の動機と目的

Lp バounded 攻撃を超えた多様で未知の敵対者のセットに対するモデル頑健性の評価を促進する。
ImageNet 上の未知の頑健性の標準化ベンチマークとして ImageNet-UA を提案（CIFAR-10-UA はより小さいアナログ）。
Unforeseen Adversarial Accuracy (UA2) 指標を定義し、多様な攻撃タイプに渡るパフォーマンスを定量化。
広範な頑健性テストを可能にする非 Lp 微分可能攻撃のリポジトリを提供。
未知の攻撃の下で既存の防御がどのように機能するかを経験的に分析し、有望なトレーニング/防御戦略を特定。

提案手法

微分可能な関数 A(x,δ) によって入力を変更する攻撃 A を含む一般的な敵対的フレームワークを定義。
18 個の新規非 Lp 攻撃を開発（Elastic は新規ではないとする）、それぞれが微分可能で ε の Lp 制約で制限され、データセットに依存しないプラグアンドプレー使用を可能に。
各攻撃の摂動集合 Sx^A,ε 内で内側のミニマization を解くために Projection Gradient Descent (PGD) を使用。
標準データセットに攻撃を適用して分類を評価することで ImageNet-UA と CIFAR-10-UA ベンチマークを構築。
UA2 をレベル ε_A での攻撃 A の下の正解率の有限な敵対者集団 A の平均として導入。
UA2 を既存の頑健性指標と比較する分析と、未知の頑健性を改善するトレーニング戦略を探索。

実験結果

リサーチクエスチョン

RQ1未知の非 Lp 敵対的ストレスは従来の Lp 攻撃と比べてモデルの精度にどのような影響を与えるか？
RQ2未知の頑健性は既存の指標で捉えられるのか、それとも UA2 は異なる弱点を明らかにするのか？
RQ3Lp 対象防御を超える未知の攻撃に対して頑健性を改善するためのトレーニングや防御戦略はどれか？
RQ4標準 CV ベンチマークの進歩は未知の頑健性の改善とどの程度相関するか？
RQ5augmentation と Lp トレーニングの組み合わせや複数攻撃戦略は多様なモデルで未知の頑健性を高めるか？

主な発見

未知の頑健性（UA2）は従来の Lp 頑健性とは異なり、既存の指標だけでは完全には予測できない。
L2 ベースの adversarial training は L∞ トレーニングよりも未知の頑健性（UA2）に対する改善が大きい。
画像拡張（例: PixMix）と L∞ トレーニングを組み合わせると、いずれか単独よりも UA2 が顕著に向上。
複数攻撃ロバスト訓練と知覚ベース防御（PAT）も UA2 を改善し、時には純粋な Lp ベースより上回る。
現代 CV モデルとトレーニングの進歩（スケール、事前学習、拡張）は UA2 の改善と相関しており、CV の進展は未知の頑健性の一部を追跡している。
最適化された非 Lp 攻撃は、L∞ 頑健性が高いモデルでも未知の敵対者には依然として脆弱であることを示し、多様な評価の必要性を強調。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。