QUICK REVIEW

[論文レビュー] Robust Local Features for Improving the Generalization of Adversarial Training

Chuanbiao Song, Kun He|arXiv (Cornell University)|Sep 23, 2019

Adversarial Robustness in Machine Learning参考文献 31被引用数 34

ひとこと要約

本論文はRLFATを提案する。RLFATは対 adversarial training 中に Random Block Shuffle を用いて頑健な局所特徴を学習し、通常の adversarial training へこの知識を転移することで、データセット全体で対抗的堅牢性と標準的な一般化能力の両方を改善する。

ABSTRACT

Adversarial training has been demonstrated as one of the most effective methods for training robust models to defend against adversarial examples. However, adversarially trained models often lack adversarially robust generalization on unseen testing data. Recent works show that adversarially trained models are more biased towards global structure features. Instead, in this work, we would like to investigate the relationship between the generalization of adversarial training and the robust local features, as the robust local features generalize well for unseen shape variation. To learn the robust local features, we develop a Random Block Shuffle (RBS) transformation to break up the global structure features on normal adversarial examples. We continue to propose a new approach called Robust Local Features for Adversarial Training (RLFAT), which first learns the robust local features by adversarial training on the RBS-transformed adversarial examples, and then transfers the robust local features into the training of normal adversarial examples. To demonstrate the generality of our argument, we implement RLFAT in currently state-of-the-art adversarial training frameworks. Extensive experiments on STL-10, CIFAR-10 and CIFAR-100 show that RLFAT significantly improves both the adversarially robust generalization and the standard generalization of adversarial training. Additionally, we demonstrate that our models capture more local features of the object on the images, aligning better with human perception.

研究の動機と目的

対戦的トレーニングにおいて頑健な局所特徴が一般化ギャップに与える影響を調査することを動機付ける。
頑健な局所特徴を学習し、それを標準的な adversarial training へ転移する方法を提案する。
提案手法が最先端の adversarial frameworks（PGDAT および TRADES）と互換性があることを示す。
複数データセットにおいて対抗的堅牢性と標準的精度の両方で実証的な改善を示す。

提案手法

Random Block Shuffle (RBS) を導入し、 adversarial training 中のグローバル構造を崩しつつ局所特徴を保持する。
Robust Local Features for Adversarial Training (RLFAT) を RBS変換 adversarial 例で学習することにより定義する。
Robust Local Feature Transfer (RLFT) を提案し、RBS変換後の入力と元の adversarial 入力との間で高レベル特徴を整合させる。
PGDAT および TRADES の派生に RLFL と RLFT をエンドツーエンドの RLFAT 損失関数に統合する。
RBSAT と RLFT を組み合わせたエンドツーエンドのトレーニングアルゴリズムを提供する（Algorithm 1）。
白箱攻撃（PGD、CW）およびブラックボックス攻撃（NAttack）に対して STL-10、CIFAR-10、CIFAR-100 で評価する。

実験結果

リサーチクエスチョン

RQ1対戦的トレーニング中に学習された頑健な局所特徴は、グローバル構造に偏った特徴よりも見えないデータへ一般化できるのか。
RQ2RBSを通じて頑健な局所特徴を学習し、それを通常の adversarial training へ転移することは、堅牢性と標準的な精度の両方を改善するのか。
RQ3RLFAT は既存の adversarial training フレームワーク（PGDAT および TRADES）およびデータセット規模と互換性があるのか。
RQ4RLFAT で学習したモデルは、ヒトの知覚とより整合したサリエンスマップを示すのか。
RQ5頑健な局所特徴転送の分布シフト（明るさおよびガンマ）下での性能への影響はどうなるのか。

主な発見

Defense	No attack	PGD	CW	N attack
STL-10, PGDAT	67.05	30.00	31.97	34.80
STL-10, TRADES	65.24	38.99	38.35	42.07
STL-10, RLFAT_P	71.47	38.42	38.42	44.80
STL-10, RLFAT_T	72.38	43.36	39.31	48.13
CIFAR-10, PGDAT	82.96	46.19	46.41	46.67
CIFAR-10, TRADES	80.35	50.95	49.80	52.47
CIFAR-10, RLFAT_P	84.77	53.97	52.40	54.60
CIFAR-10, RLFAT_T	82.72	58.75	51.94	54.60
CIFAR-100, PGDAT	55.86	23.32	22.87	22.47
CIFAR-100, TRADES	52.13	27.26	24.66	25.13
CIFAR-100, RLFAT_P	56.70	31.99	29.04	32.53
CIFAR-100, RLFAT_T	58.96	31.63	27.54	30.86

RLFAT は STL-10、CIFAR-10、CIFAR-100 の各データセットに対して、PGDAT および TRADES より対抗的堅牢性と標準的精度の両方を一貫して改善する。
RLFAT_T は tested データセットで TRADES より adversarial robust generalization および standard generalization が高い。
RLFAT_P は PGDAT より頑健性で上回り、標準的な精度も優越を維持する。
RLFAT モデルのサリエンスマップは局所特徴への強調を高め、人間の知覚とより一致する。
損失感度分析は、明るさおよびガンマの分布シフト下で RLFAT が損失を滑らかにすることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。