Skip to main content
QUICK REVIEW

[論文レビュー] Towards Robust Neural Networks via Random Self-ensemble

Xuanqing Liu, Minhao Cheng|arXiv (Cornell University)|Dec 2, 2017
Adversarial Robustness in Machine Learning参考文献 32被引用数 46
ひとこと要約

本稿では、訓練時および推論時において各畳み込み層の前にランダムノイズ層を挿入することで、深層ニューラルネットワークの耐性を向上させる、Random Self-Ensemble (RSE) という防御手法を提案する。ノイズを含む確率的勾配降下法で訓練し、複数回のノイズ付き順方向伝搬における予測をアンサンブルすることで、VGG16を用いたCIFAR-10においてC&W攻撃に対して86.1%の精度を達成する。これは、先行研究の防御法や既存の手法を著しく上回り、追加のメモリを必要とせず、実装が簡単である。

ABSTRACT

Recent studies have revealed the vulnerability of deep neural networks: A small adversarial perturbation that is imperceptible to human can easily make a well-trained deep neural network misclassify. This makes it unsafe to apply neural networks in security-critical applications. In this paper, we propose a new defense algorithm called Random Self-Ensemble (RSE) by combining two important concepts: {\bf randomness} and {\bf ensemble}. To protect a targeted model, RSE adds random noise layers to the neural network to prevent the strong gradient-based attacks, and ensembles the prediction over random noises to stabilize the performance. We show that our algorithm is equivalent to ensemble an infinite number of noisy models $f_ε$ without any additional memory overhead, and the proposed training procedure based on noisy stochastic gradient descent can ensure the ensemble model has a good predictive capability. Our algorithm significantly outperforms previous defense techniques on real data sets. For instance, on CIFAR-10 with VGG network (which has 92\% accuracy without any attack), under the strong C\&W attack within a certain distortion tolerance, the accuracy of unprotected model drops to less than 10\%, the best previous defense technique has $48\%$ accuracy, while our method still has $86\%$ prediction accuracy under the same level of attack. Finally, our method is simple and easy to integrate into any neural network.

研究の動機と目的

  • 誤差が検出できないほどの微小な敵対的摂動によって誤分類を引き起こす深層ニューラルネットワークの脆弱性に対処すること。
  • モデルサイズの増加やアーキテクチャの変更を必要とせず、耐性を向上させる防御メカニズムを開発すること。
  • C&Wのような強力なホワイトボックス攻撃に対しても効果的な耐性を実現しながら、自然画像における高い精度を維持すること。
  • 任意の事前学習済みニューラルネットワークに適用可能な、シンプルで即時利用可能な防御を提供すること。

提案手法

  • 訓練時および推論時において、各畳み込み層の入力前にランダムノイズを注入する「ノイズ層」を導入する。
  • バックプロパゲーション中に勾配がノイズによって摂動されるノイズ付き確率的勾配降下法を用いてネットワークを訓練し、モデルの正則化を図る。
  • 推論時、異なるランダムノイズ実現を用いて複数回の順方向伝搬を実行し、その予測結果をアンサンブルすることで耐性を向上させる。
  • 理論的分析により、RSEはメモリオーバーヘッドなしに無限個のノイズ付きモデル $ f_\epsilon $ のアンサンブルと同等であることが示される。
  • モデルに暗黙的にリプシッツ正則化を追加することで、入力摂動に対する耐性が向上する。
  • 訓練プロセスはアンサンブルモデルの損失の上界を最小化するため、良好な一般化性能と予測性能が保証される。

実験結果

リサーチクエスチョン

  • RQ1訓練時および推論時にランダムノイズを注入することで、モデルサイズの増加なしに敵対的耐性を向上させることができるか?
  • RQ2従来のアンサンブル手法と比較して、ランダムに摂動されたモデルに対する自己アンサンブルは、耐性および効率性においてどのように異なるか?
  • RQ3RSEは、C&Wのような強力なホワイトボックス攻撃に対して、既存の防御技術と比較してどの程度耐性を向上させるか?
  • RQ4本手法は、敵対的でない自然画像においても高い精度を維持するのか?
  • RQ5RSEは、アーキテクチャの変更なしに、さまざまなアーキテクチャおよびデータセットに効果的に適用可能か?

主な発見

  • CIFAR-10とVGG16を用いた場合、RSEは歪み許容度0.21のC&W非標的攻撃において86.1%の精度を達成し、最良の先行防御(48%)および保護されていないモデル(10%未満)を著しく上回る。
  • RSEは攻撃に成功するための歪み量を著しく増加させる——RSEを用いた敵対的例は、他の防御手法を用いたものよりもはるかに歪んでいることが、図2および図5で示されている。
  • 自然画像におけるテスト精度は高い水準を維持しており、標準モデルと比較してわずかな低下にとどまるため、クリーンデータ性能への影響は最小限である。
  • 10回のノイズ付き順方向伝搬によるアンサンブルで、精度の向上がほぼ飽和することが示され、10〜50のアンサンブルで最適な性能が得られると考えられる。
  • RSEは標準的な敵対的訓練およびより強力なバージョン(Adversarial Training II)の両方を上回り、耐性および訓練効率の両面で優れている。後者は約10倍の長時間訓練を要する。
  • RSEは標的攻撃に対しても有効であり、図6の可視化結果から、より歪んだ敵対的例が得られていることが示されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。