Skip to main content
QUICK REVIEW

[論文レビュー] Feature Denoising for Improving Adversarial Robustness

Cihang Xie, Yuxin Wu|arXiv (Cornell University)|Dec 9, 2018
Adversarial Robustness in Machine Learning参考文献 26被引用数 86
ひとこと要約

本論文は、CNNに統合された特徴デノイジングブロック(非局所平均や他のフィルタに基づく)を導入し、敵対的訓練で訓練することで、ImageNetに対する強力な白箱・黒箱攻撃に対する頑健性を高め、最先端の結果を達成し CAAD 2018 defense を受賞。

ABSTRACT

Adversarial attacks to image classification systems present challenges to convolutional networks and opportunities for understanding them. This study suggests that adversarial perturbations on images lead to noise in the features constructed by these networks. Motivated by this observation, we develop new network architectures that increase adversarial robustness by performing feature denoising. Specifically, our networks contain blocks that denoise the features using non-local means or other filters; the entire networks are trained end-to-end. When combined with adversarial training, our feature denoising networks substantially improve the state-of-the-art in adversarial robustness in both white-box and black-box attack settings. On ImageNet, under 10-iteration PGD white-box attacks where prior art has 27.9% accuracy, our method achieves 55.7%; even under extreme 2000-iteration PGD white-box attacks, our method secures 42.6% accuracy. Our method was ranked first in Competition on Adversarial Attacks and Defenses (CAAD) 2018 --- it achieved 50.6% classification accuracy on a secret, ImageNet-like test dataset against 48 unknown attackers, surpassing the runner-up approach by ~10%. Code is available at https://github.com/facebookresearch/ImageNet-Adversarial-Training.

研究の動機と目的

  • 敵対的摂動がネットワークの特徴にノイズを生じさせ、予測を劣化させることを動機づける。
  • 中間層の特徴ノイズを抑制するエンドツーエンドで訓練可能なデノイジングブロックを開発する。
  • ImageNetでの強力な白箱・黒箱攻撃に対する頑健性を系統的に評価する。
  • 複数のデノイジング操作とアーキテクチャ選択を比較して効果的な設計を特定する。
  • デノイジングブロックを使用する際の敵対的頑健性とクリーン精度のトレードオフを評価する。

提案手法

  • ResNetバックボーンの選択された残差ブロックを res2、res3、res4、res5 の後に挿入してデノイジングブロックを配置する。
  • ブロック内で非局所平均、バイラテラルフィルタ、平均フィルタ、中央値フィルタなどのデノイジング操作を使用する。
  • デノイジング操作を1x1畳み込みと残差接続で包み、デノイズ化された特徴と入力を融合する。
  • 大規模なImageNetでのPGD(epsilon=16、30 iterations)を用いた敵対的訓練でエンドツーエンド訓練を実施し、128-GPUの分散設定で。
  • 最も性能の良いデノイジング変種としてガウス加重付き非局所平均を選定;1x1層と残差接続の役割を調べるアブレーションを実施。
  • 白箱PGD攻撃(10–2000 iterations)と黒箱 CAAD 2017/2018風の攻撃の下で評価し、top-1精度と全-不-任意基準を報告。
Figure 1: Feature map in the res 3 block of an ImageNet-trained ResNet-50 [ 9 ] applied on a clean image (top) and on its adversarially perturbed counterpart (bottom). The adversarial perturbation was produced using PGD [ 16 ] with maximum perturbation $\epsilon\!=\!$ 16 (out of 256). In this exampl
Figure 1: Feature map in the res 3 block of an ImageNet-trained ResNet-50 [ 9 ] applied on a clean image (top) and on its adversarially perturbed counterpart (bottom). The adversarial perturbation was produced using PGD [ 16 ] with maximum perturbation $\epsilon\!=\!$ 16 (out of 256). In this exampl

実験結果

リサーチクエスチョン

  • RQ1特徴レベルのデノイジングは中間CNN表現に対する敵対的に誘発されたノイズを軽減できるか?
  • RQ2白箱PGD攻撃の下でどのデノイジング操作(非局所平均、バイラテラル、平均、中央値)が頑健性を最も改善するか?
  • RQ3デノイジングブロックを敵対的訓練と統合することで、白箱・黒箱攻撃下のImageNetで最先端の頑健性を達成できるか?
  • RQ4デノイジングブロックを用いた場合の敵対的頑健性とクリーン精度のトレードオフはどうなるか?

主な発見

attack iterationsnon-local, Gaussian (ResNet-152)removing 1x1removing residual
1055.752.1NaN
10045.536.8NaN
  • 10 iteration PGD 下で、4つのデノイジングブロックを持つResNet-152は55.7%の精度、ベースラインの52.5%。
  • 2000 iteration PGD 下で、デノイジングモデルは42.6%、ベースラインは39.2%。
  • 黒箱 CAAD 2018 defense で、機密のImageNet風テストデータセットで50.6%の精度を達成し、防衛部門で勝利、準優勝者より約10ポイント上回る。
  • アブレーションでは1x1畳み込みを除去すると性能が大幅に低下(例:100 iterationsで45.5%から36.8へ); 残差接続を除去すると訓練が不安定になり、両方の要素が重要。
  • 非局所デノイジングブロックは局所デノイジングを超える頑健性を提供し、ガウス加重付き非局所以は varianteの中で最も良い。
  • 非敵対的(クリーン)設定ではデノイジングブロックは精度を著しく改善しない、頑健性特有の利益を示す。
Figure 2: More examples similar to Figure 1 . We show feature maps corresponding to clean images (top) and to their adversarial perturbed versions (bottom). The feature maps for each pair of examples are from the same channel of a res 3 block in the same ResNet-50 trained on clean images. The attack
Figure 2: More examples similar to Figure 1 . We show feature maps corresponding to clean images (top) and to their adversarial perturbed versions (bottom). The feature maps for each pair of examples are from the same channel of a res 3 block in the same ResNet-50 trained on clean images. The attack

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。