Skip to main content
QUICK REVIEW

[論文レビュー] A Boundary Tilting Persepective on the Phenomenon of Adversarial Examples

Thomas Tanay, Lewis D. Griffin|arXiv (Cornell University)|Aug 27, 2016
Adversarial Robustness in Machine Learning参考文献 9被引用数 136
ひとこと要約

本論文は対抗的事例の線形説明を批判し、境界の傾斜(boundary tilting)フレームワークを導入して、対抗的強度が最寄りセントロイド境界およびデータのサブマニフォールドからのずれに依存することを示す。さらに対抗的強度を正則化と結びつけ、SVM実験を用いた線形分類子の解析を提供する。

ABSTRACT

Deep neural networks have been shown to suffer from a surprising weakness: their classification outputs can be changed by small, non-random perturbations of their inputs. This adversarial example phenomenon has been explained as originating from deep networks being "too linear" (Goodfellow et al., 2014). We show here that the linear explanation of adversarial examples presents a number of limitations: the formal argument is not convincing, linear classifiers do not always suffer from the phenomenon, and when they do their adversarial examples are different from the ones affecting deep networks. We propose a new perspective on the phenomenon. We argue that adversarial examples exist when the classification boundary lies close to the submanifold of sampled data, and present a mathematical analysis of this new perspective in the linear case. We define the notion of adversarial strength and show that it can be reduced to the deviation angle between the classifier considered and the nearest centroid classifier. Then, we show that the adversarial strength can be made arbitrarily high independently of the classification performance due to a mechanism that we call boundary tilting. This result leads us to defining a new taxonomy of adversarial examples. Finally, we show that the adversarial strength observed in practice is directly dependent on the level of regularisation used and the strongest adversarial examples, symptomatic of overfitting, can be avoided by using a proper level of regularisation.

研究の動機と目的

  • 対抗的事例の純粋に線形な説明から境界の傾斜視点への転換を促す。
  • 決定境界とデータサブマニフォールドの整合性を考慮して、対抗的事例が存在する条件を特徴づける。
  • 線形モデルにおける対抗的強度を定量化し、それを最寄りセントロイド分類器からのずれと関連づける。
  • 境界の傾斜と正則化が対抗的強度とモデルの頑健性に与える影響を調査する。
  • 境界幾何とデータ分布に基づく対抗的事例の分類体系を提案する。

提案手法

  • 線形分類境界と鏡像を用いて、対抗的事例の厳密な非存在条件を定義する。
  • 強度測度 s(I, C) = arctan(||j - m(i, C)|| / ||i - m(i, C)||) を導入し、それが C と最寄りセントロイド境界 B とのずれ角 delta_c に還元されることを示す。
  • 分類器の偏差を c = cos(delta_c) b + sin(delta_c) b_perp_c と表現し、delta_c および rc = c0/||i|| に依存する s(I, C) と s(J, C) の式を導出する。
  • rc と delta_c の解析を通じて、境界の傾斜が性能を損なうことなく任意に強い対抗的事例を生み出し得ることを示す。
  • 高い正則化では対抗的強度が最寄りセントロイド分類器へと縮小し、低い正則化は過剛性化と境界の傾斜を促進する。
  • SVM を用いた実験的直感を提供し、観測された対抗的強度を正則化レベルと関連づける。

実験結果

リサーチクエスチョン

  • RQ1データがサブマニフォールド上にあり、決定境界がそれに近い場合、対抗的事例はどのような幾何学的条件で存在するのか?
  • RQ2線形モデルでは対抗的強度をどのように定量化できるか、最寄り centroid 境界からのずれはどのような役割を果たすか?
  • RQ3境界の傾斜は分類精度を犠牲にせず強力な対抗的事例を生み出せるか、正則化はこの効果をどのように調整するか?
  • RQ4境界の幾何学(ずれ角)とデータ分布全体で対抗的事例の強さにはどのような関係があるのか?

主な発見

  • 対抗的強度は、分類器の境界と最寄りセントロイド境界とのずれ角 delta_c によって特徴づけられる。
  • 境界がデータ分散の低い方向に傾斜すると、分類性能を損なうことなく対抗的強度が任意に大きくなり得る。
  • rc ≈ 0 の場合、強度測度は s ≈ |delta_c| に簡略化され、頑健性がデータの平均との境界整合性と直接結びつく。
  • より強い正則化は対抗的強度を低減し、分類器を最寄りセントロイドへと押しやる一方、弱い正則化は境界の傾斜を促進し、より強い対抗的事例を生む。
  • 線形モデル(SVM)を用いた実験は、正則化を通じて対抗的強度を実務的に制御できる可能性を示唆し、深いネットワークでは摺動もしくは知覚不能な摂動と対比される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。