Skip to main content
QUICK REVIEW

[論文レビュー] Cross-Entropy Loss and Low-Rank Features Have Responsibility for Adversarial Examples

Kamil Nar, Orhan Öçal|arXiv (Cornell University)|Jan 24, 2019
Adversarial Robustness in Machine Learning被引用数 30
ひとこと要約

この論文は、ニューラルネットワークの活性化における交差エントロピー損失と低ランク特徴が、 adversarial examples の主な原因であると特定した。本稿では、クラス間特徴差に基づく新しい損失関数である微分訓練(differential training)を提案し、クラス間に大きなマージンを強制することで、CIFAR-10 において adversarial 成功率を顕著に低下させた。また、テストデータに対しても良好な一般化性能を示した。

ABSTRACT

State-of-the-art neural networks are vulnerable to adversarial examples; they can easily misclassify inputs that are imperceptibly different than their training and test data. In this work, we establish that the use of cross-entropy loss function and the low-rank features of the training data have responsibility for the existence of these inputs. Based on this observation, we suggest that addressing adversarial examples requires rethinking the use of cross-entropy loss function and looking for an alternative that is more suited for minimization with low-rank features. In this direction, we present a training scheme called differential training, which uses a loss function defined on the differences between the features of points from opposite classes. We show that differential training can ensure a large margin between the decision boundary of the neural network and the points in the training dataset. This larger margin increases the amount of perturbation needed to flip the prediction of the classifier and makes it harder to find an adversarial example with small perturbations. We test differential training on a binary classification task with CIFAR-10 dataset and demonstrate that it radically reduces the ratio of images for which an adversarial example could be found -- not only in the training dataset, but in the test dataset as well.

研究の動機と目的

  • 深層ニューラルネットワークにおける adversarial examples の根本的要因を特定すること。
  • 交差エントロピー損失と低ランク特徴構造が、意思決定境界のマージンを小さくする仕組みを分析すること。
  • 一般化性能と adversarial パerturbation に対する耐性を向上させる訓練手法を提案すること。
  • 微分訓練が、訓練データおよびテストデータの両方でより優れた耐性をもたらすことを実証すること。

提案手法

  • 異なったクラスに属するデータポイント間の特徴差に基づく新しい損失関数を提案する。
  • 勾配降下法を用いてこの損失を最小化し、中間層(penultimate layer)におけるクラス間の幾何的マージンを大きくするように促進する。
  • 理論的に、この損失を最小化することで線形分類器の最適ハードマージン解に収束することを証明する。
  • 非線形ネットワークへの適用を目的として、損失関数を変更し、CIFAR-10 でテストする。
  • 訓練およびテストセットの両方で、投影勾配降下法(PGD)を用いて耐性を評価する。
  • 得られたモデルが、訓練分布およびテスト分布からの adversarial 例の両方で高い精度を維持することを示す。

実験結果

リサーチクエスチョン

  • RQ1なぜ最先端のニューラルネットワークは、綺麗なデータでは高い精度を示すにもかかわらず、小さな adversarial パーティクルに対して極めて脆弱なのか?
  • RQ2交差エントロピー損失の使用が、訓練データ点に近い意思決定境界を形成する仕組みは何か?
  • RQ3深層ネットワークの中間層における低ランク特徴が、小さな摂動によって入力を誤分類可能にする程度はどの程度か?
  • RQ4クラス間特徴差に基づく訓練目的関数が、より大きなマージンと向上した耐性を生み出すことができるか?
  • RQ5提案手法は、訓練分布を超えて adversarial 例に対する耐性を一般化できるか?

主な発見

  • 微分訓練により、CIFAR-10 における PGD 攻撃下で、訓練およびテストセット両方の adversarial 例の比率がほぼゼロにまで低下した。
  • 微分訓練で学習されたネットワークは、訓練およびテストで生成された摂動の両方に対して高い精度を維持し、耐性の一般化を示した。
  • 実験的結果から、学習済みネットワークの中間層における特徴が低ランクであることが確認され、理論的分析を裏付けた。
  • 理論的分析により、勾配降下法で微分損失を最小化すると、線形分類器の最適ハードマージン解に収束することが示された。
  • この手法は、綺麗なデータの精度を損なわず、データ分布を超えて耐性が一般化されることを示した。
  • 本研究は、低ランク特徴構造を通じて、交差エントロピー損失と adversarial vulnerability の因果関係を確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。