QUICK REVIEW

[論文レビュー] Fortified Networks: Improving the Robustness of Deep Networks by Modeling the Manifold of Hidden Representations

Alex Lamb, Jonathan Binas|arXiv (Cornell University)|Apr 7, 2018

Adversarial Robustness in Machine Learning参考文献 18被引用数 29

ひとこと要約

強化ネットワークは、隠れ表現がデータ多様体から逸脱した際に、ノイズ除去自己符号化器（DAE）を用いてそれを元の多様体に戻すことで、深層ネットワークのロバスト性を向上させる。白ボックスおよびブラックボックス攻撃の両方に対して顕著な改善が得られ、アーキテクチャの再設計を要せず、MNISTでは最先端のロバスト性を達成。CIFAR-10およびFashion-MNISTでも改善が見られ、再構成誤差は分布シフトの信頼性の高い指標である。

ABSTRACT

Deep networks have achieved impressive results across a variety of important tasks. However a known weakness is a failure to perform well when evaluated on data which differ from the training distribution, even if these differences are very small, as is the case with adversarial examples. We propose Fortified Networks, a simple transformation of existing networks, which fortifies the hidden layers in a deep network by identifying when the hidden states are off of the data manifold, and maps these hidden states back to parts of the data manifold where the network performs well. Our principal contribution is to show that fortifying these hidden states improves the robustness of deep networks and our experiments (i) demonstrate improved robustness to standard adversarial attacks in both black-box and white-box threat models; (ii) suggest that our improvements are not primarily due to the gradient masking problem and (iii) show the advantage of doing this fortification in the hidden layers instead of the input space.

研究の動機と目的

データ多様体に近くても誤分類を引き起こす adversarial examples に対する深層ネットワークの脆弱性を是正すること。
再訓練を完全に再開することなく、既存ネットワークに適用可能な実用的で即座に組み込める防御手法を開発すること。
勾配マスキングを回避しつつ、ホワイトボックスおよびブラックボックスの脅威モデルの両方に対してロバスト性を向上させること。
入力空間におけるロバスト化よりも、隠れ表現空間におけるロバスト化がより効果的であることを示すこと。
推論時において、DAEの再構成誤差を用いて分布シフトの信頼性の高い信号を提供すること。

提案手法

事前に訓練済みのネットワークの隠れ層の間に、ノイズ除去自己符号化器（DAE）を「装飾」として導入し、表現を強化する。
汚れたバージョンからの元の隠れ状態の再構成を学習することで、表現空間におけるデータ多様体の内在的構造をDAEが学習する。
DAEのデコーダーを用いて、多様体から逸脱した隠れ状態（悪意ある例に顕在する）を、最も近いデータ多様体上の点へと再投影する。
クリーンデータにおける再構成誤差と摂動を加えた入力における adversarial loss の組み合わせ損失を用い、ロバスト性を促進する。
推論時において、最終分類の前にDAEを用いて隠れ活性化をノイズ除去する形で、強化された層をネットワークに統合する。
テスト時における再構成誤差を、分布外または悪意ある入力の検出に信頼性のある指標として使用する。

実験結果

リサーチクエスチョン

RQ1ノイズ除去自己符号化器を用いた隠れ表現の強化は、入力空間の防御よりも、悪意ある攻撃に対するロバスト性向上により効果的か？
RQ2提案手法は、先行研究の防御で一般的に見られる勾配マスキング問題を回避できるか？
RQ3DAEの再構成誤差は、分布シフトまたは悪意ある入力の検出に信頼性のある信号として機能するか？
RQ4入力空間におけるロバスト化と比較して、隠れ表現空間におけるロバスト化は、悪意ある例に対する防御においてより効果的か？
RQ5本手法は、アーキテクチャの変更や長時間の再訓練を要せず、既存ネットワークに一般化して適用可能か？

主な発見

強化ネットワークはMNISTで最先端のロバスト性を達成し、ホワイトボックスおよびブラックボックス攻撃両方のシナリオで、先行防御を上回る性能を示した。
本手法はCIFAR-10およびFashion-MNISTでも一貫した改善を示し、MNISTにとどまらない汎用性を示した。
ホワイトボックスおよびブラックボックス攻撃の両方に対して有効であるため、勾配マスキングの脆弱性にさらされていないことが示された。
DAEにおける再構成誤差は、分布シフトの検出に信頼性の高い指標として機能し、悪意ある例およびドメインシフトの両方を検出できた。
本手法は実用的かつ合成可能であり、計算コストの増加を最小限に抑えつつ、ResNetを含む既存ネットワークに容易に統合可能であった。
本手法は adversarial training と組み合わせることで最も効果的であることが示された。これは、データ拡張と表現レベルのロバスト化の間で相乗効果があることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。