QUICK REVIEW

[論文レビュー] Logit Pairing Methods Can Fool Gradient-Based Attacks

Marius Mosbach, Maksym Andriushchenko|arXiv (Cornell University)|Oct 29, 2018

Adversarial Robustness in Machine Learning参考文献 21被引用数 46

ひとこと要約

この論文は、CLPやLSQのような高速ロジット正規化手法が真の頑健性を提供しない一方で、ALPは限定的な頑健性を提供し、評価におけるPGDパラメータの徹底的なテストと多数のリスタートの必要性を強調している。

ABSTRACT

Recently, Kannan et al. [2018] proposed several logit regularization methods to improve the adversarial robustness of classifiers. We show that the computationally fast methods they propose - Clean Logit Pairing (CLP) and Logit Squeezing (LSQ) - just make the gradient-based optimization problem of crafting adversarial examples harder without providing actual robustness. We find that Adversarial Logit Pairing (ALP) may indeed provide robustness against adversarial examples, especially when combined with adversarial training, and we examine it in a variety of settings. However, the increase in adversarial accuracy is much smaller than previously claimed. Finally, our results suggest that the evaluation against an iterative PGD attack relies heavily on the parameters used and may result in false conclusions regarding robustness of a model.

研究の動機と目的

ロジットペアリング手法（CLP、LSQ、ALP）が勾配挙動のマスキングを超えた真の敵対的頑健性を提供するかを評価する。
MNIST、CIFAR-10、Tiny ImageNetで強力な勾配ベース攻撃に対する頑健性を評価する。
評価慣行（PGDパラメータのグリッド探索、リスタート回数）が頑健性の結論にどのように影響するかを調査する。

提案手法

CLP、LSQ、ALPを、反復数、ステップサイズ、リスタート回数を変えた強力なホワイトボックスPGD攻撃と経験的に比較する。
MNIST（LeNet）、CIFAR-10（ResNet20-v2）、Tiny ImageNet（ResNet50-v2）をL_infinity摂動、大きなepsilon値で使用する。
PGDパラメータのグリッド探索と広範なランダムリスタートを実施して攻撃成功を明らかにする。
実 adversarial trainingとSPSA攻撃と対比させ、真の頑健性を測定する。
入力空間の損失表面を可視化して勾配のぼやけ効果を説明する。

実験結果

リサーチクエスチョン

RQ1CLPとLSQは実際の頑健性を提供するのか、それとも勾配ベースの攻撃を妨害するだけなのか？
RQ2ALPは対敵訓練を超える真の頑健性を提供するのか、もしそうならどれくらいの利得があるのか？
RQ3PGDパラメータの選択とリスタート回数がデータセット間で頑健性評価にどれほど敏感か？

主な発見

CLPとLSQは入力空間の損失表面を歪め、勾配ベースの攻撃を難しくするが、実際の頑健性は提供していない（損失表面分析による証拠）。
MNIST: LSQの敵対的精度は、単一リスタートから、より大きなPGDステップサイズ、反復回数、リスタートで5.0%に低下する；CLPは強いPGD設定下で62.4%から4.1%へ低下。
CIFAR-10: PGD下でCLP/LSQの頑健性はほぼゼロに崩壊し、LSQは一部設定で1.7%の敵対的精度を示す；ALPは最も強いPGD下で adversarial trainingを約3.4%上回るが、著しくではない。
Tiny ImageNet: ALPは敵対的精度を劇的に低下させ得る（例：一部設定で31.8%から3.6%へ）が、ファインチューニングと標的攻撃は限定的な利得にとどまり、全体として最先端の頑健性を達成していない。
本研究はデフォルト設定のPGD評価が信頼できないことを強調し、妥当な結論を導くには、PGDパラメータの徹底的なグリッド探索と多数のリスタートが不可欠である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。