[論文レビュー] Adversarial Defense by Restricting the Hidden Space of Deep Neural Networks
本論文は、凸多面体制約を用いて中間特徴表現のクラス別分離を強制することで、深層ニューラルネットワークのロバスト性を向上させる予防的防御を提案する。これにより、クラス固有の特徴多様体間の最大分離が保証される。本手法は adversarial training を用いず、勾配遮断も行わず、PGD攻撃に対してCIFAR-10で46.7%、CIFAR-100で36.1%のSOTAロバスト性を達成する。
Deep neural networks are vulnerable to adversarial attacks, which can fool them by adding minuscule perturbations to the input images. The robustness of existing defenses suffers greatly under white-box attack settings, where an adversary has full knowledge about the network and can iterate several times to find strong perturbations. We observe that the main reason for the existence of such perturbations is the close proximity of different class samples in the learned feature space. This allows model decisions to be totally changed by adding an imperceptible perturbation in the inputs. To counter this, we propose to class-wise disentangle the intermediate feature representations of deep networks. Specifically, we force the features for each class to lie inside a convex polytope that is maximally separated from the polytopes of other classes. In this manner, the network is forced to learn distinct and distant decision regions for each class. We observe that this simple constraint on the features greatly enhances the robustness of learned models, even against the strongest white-box attacks, without degrading the classification performance on clean images. We report extensive evaluations in both black-box and whitebox attack scenarios and show significant gains in comparison to state-of-the art defenses1. 1Code and and models are available at: https://github.com/ aamir-mustafa/pcl-adversarial-defense Code and and models are available at: https://github.com/ aamir-mustafa/pcl-adversarial-defense
研究の動機と目的
- 深層ニューラルネットワークの adversarial 攻撃に対する脆弱性、特に攻撃者がモデルに完全にアクセス可能な白色ボックス設定下での脆弱性を解消すること。
- 隠れ特徴空間における幾何的分離を強制することで、adversarial パーティクルの影響に対するロバスト性が向上するかを調査すること。
- adversarial training や勾配遮断に依存せずに、意思決定境界のロバスト性を向上させる防御メカニズムを開発すること。
- 多様なデータセットおよび攻撃タイプ、特に強力な反復的攻撃を含む、本手法の有効性を検証すること。
提案手法
- 本手法は、各クラスの中間特徴が他のクラスの特徴多様体から最大限に分離された凸多面体内に位置するように制約を課す。
- ネットワークの複数の層で特徴表現を最適化する、マルチレベルで深く監視された損失関数を導入する。
- 損失関数は特徴空間におけるクラス内コンパクト性とクラス間分離性を向上させ、クラス多様体間の重複を低減する。
- アドバーシャル パーティクルが意思決定境界を容易に越えるのを防ぐために、幾何的制約を用いる。
- adversarial データを訓練中に必要としない、修正された訓練目的関数として防御を実装する。
- 勾配遮断を回避するため、増加する摂動バジェットに対して一貫したロバスト性の傾向を示し、攻撃タイプにわたって一貫した性能を発揮する。
実験結果
リサーチクエスチョン
- RQ1隠れ特徴空間における幾何的分離を強制することで、強力な白色ボックス攻撃に対するロバスト性が向上するか?
- RQ2特徴多様体に多面体ベースの制約を課すことで、アドバーシャル パーティクルが意思決定境界を越えるのを防げるか?
- RQ3ブラックボックスおよびホワイトボックス攻撃の両状況下で、本手法は最先端の防御と比較して優れているか?
- RQ4本防御は、過去の防御で見られる一般的な欠陥である勾配遮断を示すか?
- RQ5adversarial training を用いず、高いクリーン精度を維持しながら優れたロバスト性を達成できるか?
主な発見
- 提案された防御は、CIFAR-10でϵ = 0.03のPGD攻撃に対して46.7%のロバスト精度を達成し、先行研究のSOTAを著しく上回る。
- CIFAR-100でも同じPGD攻撃条件下で36.1%のロバスト精度を達成し、データセット間での強力な一般化能力を示している。
- adversarial training を用いず、CIFAR-10で90.8%の高いクリーン精度を維持しながら、ロバスト性を達成している。
- PGD、BIM、MIM、C&Wを含むすべての攻撃タイプに対して一貫したロバスト性を示し、摂動バジェットの増加に対しても性能低下がない。
- 摂動量ϵの増加に伴い一貫したロバスト性の低下が観察され、攻撃タイプにわたる一貫した性能から、勾配遮断は示さない。
- 実証的結果から、本手法下での特徴表現は、最終層の直前で明確に分離されており、アドバーシャル パーティクルに対して耐性があることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。