QUICK REVIEW

[論文レビュー] Towards Deep Neural Network Architectures Robust to Adversarial Examples

Shixiang Gu, Luca Rigazio|arXiv (Cornell University)|Dec 11, 2014

Adversarial Robustness in Machine Learning参考文献 19被引用数 632

ひとこと要約

本稿では、コントトラクティブオートエンコーダーにインspiredされた滑らかさペナルティを組み込んだ、敵対的例に対する耐性を高めるための新しいトレーニング手順であるDeep Contractive Networks（DCNs）を提案する。入力への微小な摂動に対して層ごとに不変性を強制することで、敵対的例を生成するのに必要な最小歪みを増加させ、標準的なネットワークと比較して敵対的歪みを25–30%向上させた。一方で、綺麗なデータにおけるテスト精度は維持されている。

ABSTRACT

Recent work has shown deep neural networks (DNNs) to be highly susceptible to well-designed, small perturbations at the input layer, or so-called adversarial examples. Taking images as an example, such distortions are often imperceptible, but can result in 100% mis-classification for a state of the art DNN. We study the structure of adversarial examples and explore network topology, pre-processing and training strategies to improve the robustness of DNNs. We perform various experiments to assess the removability of adversarial examples by corrupting with additional noise and pre-processing with denoising autoencoders (DAEs). We find that DAEs can remove substantial amounts of the adversarial noise. How- ever, when stacking the DAE with the original DNN, the resulting network can again be attacked by new adversarial examples with even smaller distortion. As a solution, we propose Deep Contractive Network, a model with a new end-to-end training procedure that includes a smoothness penalty inspired by the contractive autoencoder (CAE). This increases the network robustness to adversarial examples, without a significant performance penalty.

研究の動機と目的

深層ニューラルネットワーク（DNN）が、人間には検出できない微小な入力摂動によって誤分類を引き起こすという、敵対的例と呼ばれる脆弱性を解消すること。
敵対的例が、ノイズ除去技術（例えば、ノイズ除去オートエンコーダー（DAE））によって除去可能かどうかを調査し、その結果として全体の耐性が向上するかどうかを検討すること。
敵対的脆弱性の根本的要因がネットワーク構造にあるのか、それともトレーニングプロセスの欠陥にあるのかを検証し、局所的不変性を強制するトレーニング目的関数を設計すること。
各層にコントトラクティブペナルティを組み込むことで、トレーニングデータ周辺のロバストで平坦な表現を明示的に学習する、エンド・トゥ・エンドのトレーニングフレームワークを構築すること。
ガウスノイズなどのデータ拡張とコントトラクティブペナルティを組み合わせることで、クリーンな精度を損なわずに敵対的攻撃に対する耐性がさらに向上するかどうかを評価すること。

提案手法

本稿では、コントトラクティブオートエンコーダー（CAE）にインspiredされた滑らかさペナルティを、DNNの各隠れ層に適用する新しいトレーニング手順であるDeep Contractive Networks（DCNs）を提案する。
ペナルティは、入力に対して隠れ表現のヤコビアンのフロベニウスノルムとして計算され、訓練データ点の周辺で平坦で不変な表現を学習するようネットワークを促進する。
この方法は標準的なバックプロパゲーションプロセスに統合されており、エンド・トゥ・エンドのトレーニングが可能でありながら、綺麗なデータにおける高い分類精度を維持している。
各隠れ層が微小な入力摂動に対して感度が低くなるように正則化する層ごとのコントトラクティブ目的関数を採用し、結果として敵対的ノイズに対してより耐性のあるネットワークが得られる。
敵対的耐性を検証するために、コントトラクティブペナルティを適用したモデルと適用しないモデルをトレーニングし、敵対的例のL2歪みを比較した。
敵対的攻撃に耐性を高めるために、DCNフレームワークにトレーニング中にガウスノイズを入力として追加した。

実験結果

リサーチクエスチョン

RQ1敵対的例は、ノイズ除去オートエンコーダー（DAE）を用いて効果的に除去可能であり、その結果としてネットワーク全体の耐性が向上するか？
RQ2DNNが敵対的例に対して感受性を示す理由は、アーキテクチャ設計に起因するのか、それとも目的関数の欠陥に起因するのか？
RQ3各層にコントトラクティブペナルティを適用することで、クリーンな精度を損なわずに敵対的摂動に対する耐性が向上するか？
RQ4標準的なDNNと比較して、Deep Contractive Network（DCN）を用いることで、敵対的例の最小L2歪みはどのように変化するか？
RQ5ガウスノイズなどのデータ拡張とコントトラクティブペナルティを組み合わせることで、敵対的攻撃に対するモデルの耐性がさらに向上するか？

主な発見

ノイズ除去オートエンコーダー（DAE）は、入力からの敵対的ノイズの大部分を効果的に除去できるが、その結果得られるスタックドDAE-DNNモデルは、新たなより小さな敵対的例に対して依然として脆弱である。
Deep Contractive Network（DCN）モデルは、標準ネットワークと比較して、敵対的例の平均L2歪みを25–30%向上させた。例えば、N100-100-10モデルでは、0.084から0.107に向上した。
DCNは、クリーンなテスト精度を高く維持している（例：CIFAR-10では0.9%の誤差）一方で、敵対的歪みを増加させることで、性能のトレードオフなしに耐性を向上させている。
追加のガウスノイズ拡張（DCN+GN,L1,σ=0.1）を施したDCNは、0.108の敵対的歪みを達成し、標準ネットワークやコントトラクティブペナルティを含まないノイズ拡張モデルを上回る性能を示した。
コントトラクティブペナルティは、ネットワーク全体にわたって不変性を効果的に伝播しており、N200-200-10やConvNetなどの複数のアーキテクチャで一貫した敵対的歪みの増加が確認された。
結果から、敵対的脆弱性の主な要因はネットワークトポロジーではなくトレーニング目的関数にあると考えられ、コントトラクティブペナルティによる明示的な不変性学習が耐性向上の有効な道筋であると示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。