[論文レビュー] Improving the Generalization of Adversarial Training with Domain Adaptation
ATDAはFGSMベースの敵対的訓練をドメイン適応問題として再定義し、クリーンと敵対的表現を整合させることで、クリーンデータの適切な精度を保ちつつ、さまざまな攻撃への一般化を改善します。
By injecting adversarial examples into training data, adversarial training is promising for improving the robustness of deep learning models. However, most existing adversarial training approaches are based on a specific type of adversarial attack. It may not provide sufficiently representative samples from the adversarial domain, leading to a weak generalization ability on adversarial examples from other attacks. Moreover, during the adversarial training, adversarial perturbations on inputs are usually crafted by fast single-step adversaries so as to scale to large datasets. This work is mainly focused on the adversarial training yet efficient FGSM adversary. In this scenario, it is difficult to train a model with great generalization due to the lack of representative adversarial samples, aka the samples are unable to accurately reflect the adversarial domain. To alleviate this problem, we propose a novel Adversarial Training with Domain Adaptation (ATDA) method. Our intuition is to regard the adversarial training on FGSM adversary as a domain adaption task with limited number of target domain samples. The main idea is to learn a representation that is semantically meaningful and domain invariant on the clean domain as well as the adversarial domain. Empirical evaluations on Fashion-MNIST, SVHN, CIFAR-10 and CIFAR-100 demonstrate that ATDA can greatly improve the generalization of adversarial training and the smoothness of the learned models, and outperforms state-of-the-art methods on standard benchmark datasets. To show the transfer ability of our method, we also extend ATDA to the adversarial training on iterative attacks such as PGD-Adversial Training (PAT) and the defense performance is improved considerably.
研究の動機と目的
- ニューラルネットワークの敵対的事例に対するロバスト性を動機づけ、未知の攻撃への一般化が弱い点に対処する。
- クリーンデータと敵対データのギャップをロジット空間で埋めるためのドメイン適応フレームワークを提案する。
- 標準的な敵対的訓練と組み合わせて教師なし・教師ありのドメイン適応を統合し、一般化を向上させる。
- 一般的なデータセットでの有効性を示し、PGDなどの反復攻撃へ拡張する。
提案手法
- ロジット空間におけるクリーンと敵対的ドメイン間のドメイン適応として敵対的訓練をモデル化する。
- 教師なしドメイン適応損失を用いる:CORALで共分散を揃え、MMDでクリーンと敵対的表現の平均を揃える。
- 中心損失に類似した中心更新を持つ、クラス内分散を減らしクラス間分離を高める教師ありドメイン適応を導入する。
- ラベルリークを避けるためのFGSM派生を用いて敵対的例を生成し、それらを訓練に組み込み、次の損失を組み合わせた訓練を行う:クリーンと敵対的データの分類損失の両方とドメイン適応項。
- クリーンと敵対的データの標準的分類損失とドメイン整列の正則化項(UDA + SDA)をバランスさせるラムダというパラメータを持つ結合目的関数を定義する。
- ミニバッチを反復的にサンプルし、敵対的例を作成し、クラスセンターを更新し、ネットワークとセンターを最適化するアルゴリズムを概説する。
実験結果
リサーチクエスチョン
- RQ1ドメイン適応技術はロジット空間におけるクリーンと敵対的データの分布ギャップを縮小できるか?
- RQ2モーメントと共分散を揃える(UDA)に加えてクラス意識的整列(SDA)を導入することで、FGSMを超える未知の攻撃者への一般化が改善されるか?
- RQ3ATDAは標準的な敵対的訓練と互換性があり、PGDのような反復攻击へ拡張可能か?
- RQ4クリーン精度とモデルの滑らかさに対するATDAの影響は、従来の敵対的訓練と比較してどうか?
主な発見
- ATDAは標準の敵対的訓練やいくつかの最先端ベースラインと比較して、複数の有界攻撃者への一般化を改善する。
- UDAとSDAの構成要素はドメイン不変性と頑健性に寄与し、アブレーションでドメイン整列からの顕著な利得が示される。
- ATDAはベースラインと比べてローカル損失感度が低い、滑らかなモデルを生み出す。
- 学習済みのロジット表現は、クリーンと敵対的ドメイン間で他の手法より分布の整列が近い(MMD距離が小さい)
- ATDAはPGDベースの敵対的訓練向けPATDAへ拡張可能で、PATよりいくつかのデータセットで強力な頑健性を達成するが、データセットによって結果は異なる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。