Skip to main content
QUICK REVIEW

[論文レビュー] DVERGE: Diversifying Vulnerabilities for Enhanced Robust Generation of Ensembles

Huanrui Yang, Jingyang Zhang|arXiv (Cornell University)|Sep 30, 2020
Adversarial Robustness in Machine Learning参考文献 40被引用数 49
ひとこと要約

DVERGEはCNNアンサンブルを訓練し、蒸留された非ロバスト特徴を用いてサブモデルの脆弱性を分離・多様化し、アンサンブル内の移転攻撃を低減しつつクリーン精度を維持します。

ABSTRACT

Recent research finds CNN models for image classification demonstrate overlapped adversarial vulnerabilities: adversarial attacks can mislead CNN models with small perturbations, which can effectively transfer between different models trained on the same dataset. Adversarial training, as a general robustness improvement technique, eliminates the vulnerability in a single model by forcing it to learn robust features. The process is hard, often requires models with large capacity, and suffers from significant loss on clean data accuracy. Alternatively, ensemble methods are proposed to induce sub-models with diverse outputs against a transfer adversarial example, making the ensemble robust against transfer attacks even if each sub-model is individually non-robust. Only small clean accuracy drop is observed in the process. However, previous ensemble training methods are not efficacious in inducing such diversity and thus ineffective on reaching robust ensemble. We propose DVERGE, which isolates the adversarial vulnerability in each sub-model by distilling non-robust features, and diversifies the adversarial vulnerability to induce diverse outputs against a transfer attack. The novel diversity metric and training procedure enables DVERGE to achieve higher robustness against transfer attacks comparing to previous ensemble methods, and enables the improved robustness when more sub-models are added to the ensemble. The code of this work is available at https://github.com/zjysteven/DVERGE

研究の動機と目的

  • 大きなクリーン精度の低下を伴わずに、敵対的転移攻撃に対する頑健なアンサンブル設計を動機づける。
  • 非ロバスト特徴がサブモデルの脆弱性にどのように寄与するかを特定し、定量化する。
  • サブモデル間の脆弱性多様性を測定する指標を開発する。
  • 転移耐性を最大化する脆弱性多様化目的を用いたアンサンブルを提案・訓練する。

提案手法

  • 各サブモデルから非ロバスト特徴を蒸留することに基づく脆弱性多様性指標を導入する。
  • ランダムな入力と層を横断して蒸留特徴を用いた重なり測度 d(f_i, f_j) を定義する(式2)。
  • 訓練の安定性を保持しつつ、モデル間の脆弱性多様性を最大化する多様化目的を形成する(式5)。
  • 他のサブモデル用に作成された歪んだ入力から各サブモデルが学習するループオーバー方式でNサブモデルアンサンブルを訓練する(アルゴリズム1)。
  • 訓練中にPGDベースの特徴蒸留をランダムな層選択と組み合わせて非ロバスト特徴の蒸留を生成する。
  • ホワイトボックス頑健性とクリーン精度を向上させるために、任意で敵対的訓練を加えてDVERGEを拡張する(DVERGE+AdvT)。

実験結果

リサーチクエスチョン

  • RQ1サブモデル間の脆弱性多様性を定量化し最大化して、アンサンブル内の転移攻撃を低減できますか?
  • RQ2非ロバスト特徴の蒸留による脆弱性の多様化は、ブラックボックスおよびホワイトボックスの敵に対するアンサンブルの頑健性を、大きなクリーン精度の低下を伴わずに改善しますか?
  • RQ3アンサンブル内のサブモデル数が増える場合、DVERGEはどのようにスケールしますか?
  • RQ4DVERGEと敵対的訓練を組み合わせると、それぞれ単独よりも高いクリーン精度と頑健性を得られますか?

主な発見

  • DVERGEは脆弱性の多様性を高め、アンサンブル内の転移可能性を低減する。訓練後、サブモデル間での攻撃の移行はわずか3-6%である。
  • ADPおよびGALと比較して、評価対象のアンサンブル全体でサブモデル間の転移攻撃の成功率を著しく低下させる。
  • DVERGEはベースラインよりもブラックボックスおよびホワイトボックスの頑健性で優れており、クリーン精度は同程度で、サブモデルが増えるほど頑健性が向上する。
  • DVERGEと敵対的訓練を組み合わせた(DVERGE+AdvT)は、特定の設定下で敵対的訓練単独よりも高いクリーン精度と転移耐性を示す。
  • このアプローチは、CIFAR-10上でResNet-20サブモデルを用いた場合、3、5、8などのアンサンブルサイズに対して有効である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。