Skip to main content
QUICK REVIEW

[論文レビュー] Interpreting Adversarially Trained Convolutional Neural Networks

Tianyuan Zhang, Zhanxing Zhu|ePrints Soton (University of Southampton)|May 23, 2019
Adversarial Robustness in Machine Learning被引用数 75
ひとこと要約

本論文はAT-CNNsを体系的に解釈し、通常訓練されたCNNより形状に偏った表現を発展させ、テクスチャーには偏りが少ないことを示している。サリエンスマップと専門化された変換データセットを用いて。

ABSTRACT

We attempt to interpret how adversarially trained convolutional neural networks (AT-CNNs) recognize objects. We design systematic approaches to interpret AT-CNNs in both qualitative and quantitative ways and compare them with normally trained models. Surprisingly, we find that adversarial training alleviates the texture bias of standard CNNs when trained on object recognition tasks, and helps CNNs learn a more shape-biased representation. We validate our hypothesis from two aspects. First, we compare the salience maps of AT-CNNs and standard CNNs on clean images and images under different transformations. The comparison could visually show that the prediction of the two types of CNNs is sensitive to dramatically different types of features. Second, to achieve quantitative verification, we construct additional test datasets that destroy either textures or shapes, such as style-transferred version of clean data, saturated images and patch-shuffled ones, and then evaluate the classification accuracy of AT-CNNs and normal CNNs on these datasets. Our findings shed some light on why AT-CNNs are more robust than those normally trained ones and contribute to a better understanding of adversarial training over CNNs from an interpretation perspective.

研究の動機と目的

  • AT-CNNs が何を学習し、なぜ通常訓練されたCNNよりロバストなのかを調査する。
  • クリーン画像および変換画像に対して定性的サリエンスマップを用いて、AT-CNNsと標準CNNを比較する。
  • 設計されたテストデータセットを通じて、テクスチャ保持 vs 形状保持の歪みに対する感度を定量的に評価する。

提案手法

  • クリーン画像および変換画像上で、AT-CNNsと標準CNNの特徴感度を可視化するためにサリエンスマップ(GradとSmoothGrad)を用いる。
  • テクスチャーと形状を歪めるテストセット(スタイライズされた画像、彩度の高い画像、パッチをシャッフルした画像)を構築して一般化ギャップを量化する。
  • 複数の敵対的訓練(PGDとFGSM)と強さの下で、3つのデータセット(CIFAR-10、Tiny ImageNet、Caltech-256)上でモデルを評価する。
  • 一般化を制御するために、アンダーフィットのベースラインと敵対的摂動下でのロバスト性と精度を比較する。

実験結果

リサーチクエスチョン

  • RQ1AT-CNNsは、通常訓練されたCNNと比較して、形状情報により依存しており、テクスチャ情報には依存が少ないのか?
  • RQ2他の特徴が維持されたまま、テクスチャや形状が乱された場合、AT-CNNsと標準CNNはどのように機能するか?
  • RQ3サリエンスマップは、AT-CNNsと通常のCNNの間で定性的に異なる特徴感度を明らかにできるか?
  • RQ4敵対的訓練は、形状やエッジのような長距離構造に対するモデルのバイアスを移動させるのか?

主な発見

  • AT-CNNsはよりまばらで輪郭に焦点を当てたサリエンスマップを生成し、標準CNNより形状/エッジを強調する。
  • スタイライズされた(テクスチャーを変更する)画像では、AT-CNNsは標準CNNより高い精度を保持し、より強い形状バイアスを示す。
  • テクスチャー/彩度の歪み下で、AT-CNNsは性能低下が少なく、局所的テクスチャ情報への依存が減っていることを示唆する。
  • パッチシャッフル(形状/エッジを崩す)はAT-CNNsの信頼度と精度を大きく低下させる一方、標準CNNは比較的堅牢であり、AT-CNNsが形状により依存していることを示している。
  • データセットをまたいで、より高い敵対的ロバスト性は形状/エッジ特徴への感度の大きさと、テクスチャ依存の減少と相関している。
  • この研究は、敵対的訓練によるロバスト性が、テクスチャの手掛かりではなく、長距離の形状ベースの表現を学習することに関連していることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。