QUICK REVIEW

[論文レビュー] Generalized No Free Lunch Theorem for Adversarial Robustness

Elvis Dohmatob|arXiv (Cornell University)|Oct 8, 2018

Adversarial Robustness in Machine Learning被引用数 30

ひとこと要約

本稿は、データ分布の軽微な幾何的条件（例えば、対数凹型またはリーマン多様体上の密度）の下で、任意の完璧でない分類器が、摂動が自然なノイズ閾値を超えると、必然的に adversarial 攻撃に対して脆弱であることを示す一般化された「無料のランチの定理」を確立している。主な結果は、摂動がデータの内在的ノイズレベルと分類器の誤差率に依存する臨界値を超えると、adversarial fooling が高確率で発生することを示している。

ABSTRACT

This manuscript presents some new impossibility results on adversarial robustness in machine learning, a very important yet largely open problem. We show that if conditioned on a class label the data distribution satisfies the $W_2$ Talagrand transportation-cost inequality (for example, this condition is satisfied if the conditional distribution has density which is log-concave; is the uniform measure on a compact Riemannian manifold with positive Ricci curvature, any classifier can be adversarially fooled with high probability once the perturbations are slightly greater than the natural noise level in the problem. We call this result The Strong "No Free Lunch" Theorem as some recent results (Tsipras et al. 2018, Fawzi et al. 2018, etc.) on the subject can be immediately recovered as very particular cases. Our theoretical bounds are demonstrated on both simulated and real data (MNIST). We conclude the manuscript with some speculation on possible future research directions.

研究の動機と目的

広範なクラスのデータ分布にわたる adversarial な堅牢性の根本的限界を確立すること。
幾何的条件が満たされる場合に、堅牢性が不可能であることを特定することで、先行する「無料のランチ」結果を adversarial マシンラーニングで一般化すること。
高精度な分類器ですら、摂動がデータノイズと一般化誤差に依存する閾値を超えると脆弱であることを示すこと。
adversarial 堅牢性を、曲率や測度の集中といったデータの幾何的性質と結びつけること。
過度に許容的な攻撃者仮定を避けるために、adversarial マシンラーニングにおける脅威モデルの再考を促すこと。

提案手法

条件付きデータ分布に $W_2$ Talagrand トランスポートコスト不等式を十分条件として用い、堅牢性の限界を導出する。
幾何確率論と測度の集中を用いて、データ多様体上での adversarial 例への距離を制限する。
摂動が $\epsilon(h|k) \approx \sigma_k \Phi^{-1}(\text{acc}(h|k))$ を超えると adversarial fooling が起こりやすくなる臨界摂動閾値を導出する。
ガウス分布および対数凹型分布の尾部バウンドを適用して、adversarial 間違い分類の可能性を定量化する。
シミュレートされたデータおよび MNIST に対して、深層順方向伝播および CNN アーキテクチャを用いて理論的境界を実証的に検証する。
摂動が臨界 $\epsilon$ を超えると、adversarial 正答率がゆっくり低下し、その後指数関数的に減少する段階的転移モデルを導入する。

実験結果

リサーチクエスチョン

RQ1どのようなデータ分布の幾何的条件下で、任意の完璧でない分類器に対して adversarial 堅牢性が根本的になく、不可能となるか？
RQ2adversarial 攻撃の臨界摂動閾値を、分類器の一般化誤差とデータノイズレベルの観点から表現できるか？
RQ3既存の adversarial 堅牢性結果（例：Tsipras et al., 2018）が、より広範な不可能性定理の特殊ケースとしてどのように現れるか？
RQ4多様体上の測度の集中が、adversarial 偽装および分布的堅牢性の限界を完全に特徴づけることができるか？
RQ5理論的境界が、MNIST などの実世界のデータセットにおける adversarial 脆弱性の現れ方としてどのように現れるか？

主な発見

一般化誤差 $\text{err}(h|k) > 0$ を示すデータ分布に $W_2$ Talagrand 不等式が成り立つ場合、摂動が $\epsilon(h|k) \approx \sigma_k \sqrt{2\log(1/\text{err}(h|k))}$ を超えると、任意の分類器は高確率で adversarial に欺かれることになる。
クラス $k$ のデータポイントから、誤分類される adversarial ポイントの集合までの平均距離は、$\sigma_k \left( \Phi^{-1}(\text{acc}(h|k)) + \sqrt{\pi/2} \right)$ で上界が与えられる。
シミュレートされたデータおよび MNIST において、摂動が $\epsilon = \epsilon_\infty(h|k)$ を超えると、adversarial 正答率はゆっくり低下し、その後指数関数的に減少し、運の当たりレベルまで低下する。
理論的段階的転移は、MNIST における実証的観察と一致しており、理想化された分布を超えて広く適用可能である可能性を示唆している。
本研究の結果は、先行する「無料のランチ」定理（例：Tsipras et al., 2018）を特殊ケースとして統合し、一つの幾何的フレームワークで統一している。
現在の脅威モデル（例：$\ell_p$-有界摂動）はあまりに許容的であり、攻撃者制約の再考が、これらの不可能性結果の緩和に寄与する可能性があると示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。