Skip to main content
QUICK REVIEW

[論文レビュー] Adversarial Manipulation of Deep Representations

Sara Sabour, Yanshuai Cao|arXiv (Cornell University)|Nov 16, 2015
Adversarial Robustness in Machine Learning参考文献 13被引用数 67
ひとこと要約

本稿では、元の画像と類似した視認性を持つが、別の目的のガイド画像の深層ニューラルネットワーク(DNN)表現とほぼ同一となるような『特徴敵対的画像』を提案する。中間DNN層における表現距離を最小化しつつ、視認性の歪みを制約する勾配ベース最適化を用いることで、自然に見える内部特徴を持つ敵対的画像を生成する。これは、誤分類を超えたDNN表現における根本的な脆弱性を明らかにする。

ABSTRACT

We show that the representation of an image in a deep neural network (DNN) can be manipulated to mimic those of other natural images, with only minor, imperceptible perturbations to the original image. Previous methods for generating adversarial images focused on image perturbations designed to produce erroneous class labels, while we concentrate on the internal layers of DNN representations. In this way our new class of adversarial images differs qualitatively from others. While the adversary is perceptually similar to one image, its internal representation appears remarkably similar to a different image, one from a different class, bearing little if any apparent similarity to the input; they appear generic and consistent with the space of natural images. This phenomenon raises questions about DNN representations, as well as the properties of natural images themselves.

研究の動機と目的

  • 深層ニューラルネットワーク(DNN)の表現を、元の画像と類似した視認性を保ちつつ、別の自然画像の表現に操作できるかどうかを調査すること。
  • このような敵対的画像が、複数のDNN層にわたり、自然画像の表現と区別できないほど一般的で、一貫性を持つかどうかを調査すること。
  • この現象がネットワークアーキテクチャ、トレーニングデータ、それともモデル固有の性質に起因するかを特定すること。
  • 従来の誤分類に特化した研究とは対照的に、この新しい敵対的例のクラスを検討すること。
  • モデルの線形性と一般化の役割が、このような表現レベルの操作を可能にするかを評価すること。

提案手法

  • 敵対的画像生成を制約付き最適化問題として定式化:選択した層で、摂動を加えた画像のDNN表現とガイド画像の表現との間のL2距離を最小化する。
  • ピxls単位の摂動にL∞ノルム制約(‖I − Is‖∞ < δ)を適用することで、人間の観察者には見えないことを保証する。
  • 勾配ベース最適化を用いて制約付き最小化問題を解き、繰り返し画像を更新してガイド画像の表現との距離を小さくする。
  • 表現シフトの線形性仮説を検証するため、DNN層のヤコビアンを用いた線形近似ベースライン(feature-linear)を導入する。
  • CaffeNetモデルをトレーニング済みとして用い、アーキテクチャの影響を分離するためにランダム初期化されたネットワークとも比較する。
  • 特徴空間における敵対的表現のスパarsityと密度を分析し、その自然さと一般性を評価する。

実験結果

リサーチクエスチョン

  • RQ1深層ニューラルネットワークの表現を、元の画像と類似した視認性を保ちつつ、別の自然画像の表現に操作できるか?
  • RQ2得られた敵対的画像は、複数の層にわたり、その内部DNN表現において自然画像と区別できないか?
  • RQ3このような特徴敵対的画像の存在は、トレーニングデータに依存するのか、それともネットワークアーキテクチャそのものに起因するのか?
  • RQ4DNN表現の線形性が、この敵対的操作の成功をどの程度説明できるか?
  • RQ5敵対的表現は、DNN特徴空間における自然画像表現と比べて、分布と密度の点でどのように異なるか?

主な発見

  • 提案手法は、元の画像と類似した視認性を持つが、C2層以降の層でガイド画像の表現と50%以下の距離にまで近づける敵対的画像を効果的に生成した。
  • 特徴敵対的画像は、線形近似ベースライン(feature-linear)よりも顕著に低い表現距離を達成しており、後者は元のソース・ガイド距離の80%以下に距離を短縮できなかった。
  • トレーニング済みでないランダム初期化されたネットワークに対しても、同様の距離比が得られたため、この現象はネットワークアーキテクチャに起因するものであり、学習済み重みに依存しないことが示された。
  • 敵対的表現は外れ値ではなく、DNN特徴空間の高密度領域に位置しており、表現空間において一般的で自然に見えることが示された。
  • すべての層でfeature-optがfeature-linearを上回ったことから、DNNの非線形性が強力な表現模倣を実現するために不可欠であることが明らかになった。
  • 手書き数字や狭域ドメインデータセットで微調整されたネットワークでは失敗事例が観察されたことから、入力ドメイン、ネットワークの深さ、受容野のサイズに敏感であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。