Skip to main content
QUICK REVIEW

[論文レビュー] Certified Defenses against Adversarial Examples

Aditi Raghunathan, Jacob Steinhardt|arXiv (Cornell University)|Jan 29, 2018
Adversarial Robustness in Machine Learning参考文献 55被引用数 339
ひとこと要約

本論文は、半正定緩和を用いて頑健性を認定し、モデルパラメータと頑健性認定を同時に最適化するデュアル訓練目的を用いた、二層ニューラルネットワークに対する敵対的例に対する認定可能で訓練可能な防御を導入する。

ABSTRACT

While neural networks have achieved high accuracy on standard image classification benchmarks, their accuracy drops to nearly zero in the presence of small adversarial perturbations to test inputs. Defenses based on regularization and adversarial training have been proposed, but often followed by new, stronger attacks that defeat these defenses. Can we somehow end this arms race? In this work, we study this problem for neural networks with one hidden layer. We first propose a method based on a semidefinite relaxation that outputs a certificate that for a given network and test input, no attack can force the error to exceed a certain value. Second, as this certificate is differentiable, we jointly optimize it with the network parameters, providing an adaptive regularizer that encourages robustness against all attacks. On MNIST, our approach produces a network and a certificate that no attack that perturbs each pixel by at most ε= 0.1 can cause more than 35% test error.

研究の動機と目的

  • l_infinity ボール内の敵対的摂動に対する頑健な分類を動機づける。
  • 1つの隠れ層を持つネットワークの最悪ケースの敵対的損失を上界する、扱いやすい認定を開発する。
  • 認定から導かれる訓練可能な正則化項を提供し、学習中の頑健性を促進する。
  • MNIST 上で認定可能に頑健なネットワークを生み出す実用的な方法を示す。
  • 効果とスケーラビリティを評価するため、代替境界や先行研究と比較する。

提案手法

  • クラス i に対して真のクラス y によるマージン f^i(x) = f^i(x) - f^y(x) を定義する。
  • 摂動経路上の勾配を積分し、摂動球における ||∇f(·)||_1 で上界することで、最悪の攻撃 f(A(x)) の上界を導出する。
  • この界を二層ニューラルネットワークに特化させて、二次計画問題(QP)の境界 f_QP(x) を得る。
  • 非凸の QP を半正定値計画問題(SDP) f_SDP(x) に緩和して、凸で計算可能な認定を得る。
  • 対称性を用いて SDP の内側最大化を微分可能な目的関数に変換し、確率的勾配法での訓練を可能にする(Equation 21)。
  • スペクトル境界とフロベニウス境界 (f_spectral, f_frobenius) との比較および訓練の選択肢について議論する。

実験結果

リサーチクエスチョン

  • RQ11層の隠れ層を持つニューラルネットワークの最悪ケースの敵対的損失に対して認定可能な上界を計算できるか?
  • RQ2この認定は微分可能で、頑健なモデルを生み出す訓練目的として使用できるか?
  • RQ3MNIST データを分類する際に、SDP に基づく認定は他の境界と比較してどれだけ厳密か?
  • RQ4SDP 認定を用いた訓練は従来の防御を上回る頑健性を実際の攻撃に対して改善するか?
  • RQ5SDP 基盤のアプローチはスケーラビリティと頑健性の点で LP ベースや他の検証可能手法とどう比較されるか?

主な発見

  • SDP ベースの認定は、試験済みのネットワークに対して Frobenius およびスペクトル境界よりも敵対的損失の上界を厳密に示す。
  • SDP 認定を用いた訓練は頑健性と認定保証を向上させ、特に SDP-NN は MNIST の ε=0.1 で意味のある頑健性を示す。
  • SDP-NN は MNIST において観測された PGD エラーを 15%、SDP 上界を 35%、LP 上界を 99%とすることで、補完的な境界とネットワークアーキテクチャの影響を示す。
  • 単独の敵対的訓練(AT-NN)はいくつかの攻撃に対する頑健性を向上させるが、SDP ベースの訓練ほど厳密な認定を生み出さない。
  • 訓練中のデュアル認定は完全解 SDP 認定に近く、最適化中の実用的な頑健性追跡を可能にする。
  • 関連研究の四層 CNN と比較して、二層 SDP アプローチは設計上の制約の範囲内で競争力のある頑健性を提供する;より深いネットワークは境界をさらに改善する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。