QUICK REVIEW

[論文レビュー] Intriguing generalization and simplicity of adversarially trained neural networks

Chirag Agarwal, Peijie Chen|arXiv (Cornell University)|Jun 16, 2020

Adversarial Robustness in Machine Learning被引用数 3

ひとこと要約

この論文は、敵対的に訓練されたニューラルネットワークが分布外データにどのように一般化するか、そしてどのような表現を学ぶかを調査する。その結果、頑健なモデルは、シルエットやスタイライズドバージョンのようなテクスチャのない画像において、より良い一般化を示し、形状の手がかりに大きく依存していることが判明した。一方、敵対的訓練は3つの主要なシフトを引き起こす：特徴検出の滑らかさの向上、低レベルのテクスチャ／色への注目度の増加、ニューロンの複雑さの低下。

ABSTRACT

Adversarial training has been the topic of dozens of studies and a leading method for defending against adversarial attacks. Yet, it remains unknown (a) how adversarially-trained classifiers (a.k.a classifiers) generalize to new types of out-of-distribution examples; and (b) what hidden representations were learned by robust networks. In this paper, we perform a thorough, systematic study to answer these two questions on AlexNet, GoogLeNet, and ResNet-50 trained on ImageNet. While robust models often perform on-par or worse than standard models on unseen distorted, texture-preserving images (e.g. blurred), they are consistently more accurate on texture-less images (i.e. silhouettes and stylized). That is, robust models rely heavily on shapes, in stark contrast to the strong texture bias in standard ImageNet classifiers (Geirhos et al. 2018). Remarkably, adversarial training causes three significant shifts in the functions of hidden neurons. That is, each convolutional neuron often changes to (1) detect pixel-wise smoother patterns; (2) detect more lower-level features i.e. textures and colors (instead of objects); and (3) be simpler in terms of complexity i.e. detecting more limited sets of concepts.

研究の動機と目的

標準的なImageNetデータとは異なる分布外の例に、敵対的訓練を受けた分類器がどのように一般化するかを理解すること。
標準モデルと比較して、頑健なモデルが学習する隠れ表現の性質を調査すること。
敵対的訓練後のニューロンにおける構造的および機能的変化を同定すること。
頑健性が特徴階層および表現の複雑さのシフトと相関しているかどうかを特定すること。

提案手法

PGD攻撃を用いた敵対的訓練により、AlexNet、GoogLeNet、ResNet-50をImageNetで訓練した。
ぼやけた画像、スタイライズド画像、シルエット画像を含む多様な分布外データセット上で一般化性能を評価した。
隠れ層の活性化を分析し、特徴の複雑さ、空間的滑らかさ、および1ニューロンあたりに検出可能な概念の数を評価した。
複数のアーキテクチャおよび層において、標準モデルと敵対的訓練モデルのニューロン行動を比較した。
空間的滑らかさ、特徴の特異性、活性化における概念多様性の測定により、ニューロン機能のシフトを定量化した。

実験結果

リサーチクエスチョン

RQ1敵対的訓練を受けたモデルは、テクスチャや歪みが加えられた分布外画像に対してどのように一般化するか？
RQ2標準モデルと比較して、頑健なモデルはどのようなインダクティブバイアスを学ぶか？
RQ3敵対的訓練は個々の畳み込みニューロンの機能的行動をどのように変化させるか？
RQ4頑健なモデルが分類に、形状に依存する割合がどれほど高いか？

主な発見

敵対的訓練を受けたモデルは、シルエットやスタイライズド画像のようなテクスチャのない画像において、標準モデルを上回る性能を示し、より強い形状バイアスがあることが示された。
標準的なImageNet分類器は強いテクスチャバイアスを示すが、頑健なモデルは形状ベースの特徴の検出へとシフトしている。
頑健なモデルにおける畳み込みニューロンの活性化パターンは、空間的により滑らかになっている。これは、粗い、滑らかなパターンの検出を示している。
頑健なモデルのニューロンは、高レベルのオブジェクトではなく、色やテクスチャといった低レベルの特徴をより多く検出するようになっており、表現階層のシフトが示唆される。
敵対的訓練を受けたネットワークのニューロンは、複雑さが低下しており、検出可能な視覚的概念の集合が少なく、制限されたものになっている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。