QUICK REVIEW

[論文レビュー] Defense Against Adversarial Attacks Using Feature Scattering-based Adversarial Training

Haichao Zhang, Jianyu Wang|arXiv (Cornell University)|Jul 24, 2019

Adversarial Robustness in Machine Learning参考文献 70被引用数 118

ひとこと要約

論文は潜在空間での特徴散乱を導入し、最適輸送を用いて協調的な教師なし敵対的摂動を生成して訓練を行い、ラベルリーケージなしで頑健性を向上させる。

ABSTRACT

We introduce a feature scattering-based adversarial training approach for improving model robustness against adversarial attacks. Conventional adversarial training approaches leverage a supervised scheme (either targeted or non-targeted) in generating attacks for training, which typically suffer from issues such as label leaking as noted in recent works. Differently, the proposed approach generates adversarial images for training through feature scattering in the latent space, which is unsupervised in nature and avoids label leaking. More importantly, this new approach generates perturbed images in a collaborative fashion, taking the inter-sample relationships into consideration. We conduct analysis on model robustness and demonstrate the effectiveness of the proposed approach through extensively experiments on different datasets compared with state-of-the-art approaches.

研究の動機と目的

アドバーサリアルトレーニングにおけるラベルリーケージと単一サンプル摂動の制約を解決する。
特徴散乱を介して局所特徴近傍を摂動させることによりサンプル間の関係を活用する（教師なし）。
訓練のためのOTベースの摂動を含む二階層最適化フレームワークを導入する。
CIFAR10、CIFAR100、SVHN に対して標準および強力な攻撃に対して頑健性の向上を実証する。

提案手法

コサインコストを用いたクリーンと摂動特徴の実証分布間のOT距離として特徴マッチング距離を定義する。
摂動予算の下で特徴マッチング距離を最大化することにより敵対的摂動を生成する（特徴散乱）。
クリーンと摂動サンプル間のOTを介してソフトなバッチレベルのマッチングとして摂動をモデル化し、OTソルバー（例：Sinkhorn または IPOT）で解く。
二階層最適化フレームワークの中で、摂動サンプル上のクロスエントロピー損失を最小化してエンドツーエンドで訓練する。
指定されたハイパーパラメータで CIFAR10、CIFAR100、SVHN に対して Standard、Madry、Bilateral adversarial training と比較する。

実験結果

リサーチクエスチョン

RQ1特徴散乱は従来のサンプル単位の敵対訓練を超える頑健性を向上させるか。
RQ2OTベースのソフトマッチングは摂動生成と得られる正則化にどのような影響を与えるか。
RQ3異なるOTソルバー（Sinkhorn と IPOT）による最終的な頑健性への影響は？
RQ4標準ベンチマークで白箱・黒箱の敵対的攻撃に対して手法は有効か。

主な発見

CIFAR10 では提案手法はPGDおよびCW攻撃において Madry および Bilateral より頑健性が高い（例：PGD20: 70.5% vs 44.9%）。
クリーン精度は高水準を維持（例：CIFAR10 のクリーンは約 90.0% 程度）、一方で攻撃耐性を大幅に向上。
SVHN の結果は提案手法が最も高いクリーン精度とPGD/CW攻撃に対する強い頑健性を示す。
CIFAR100 の実験では PGD で Madry を約 20% 上回り、CW 攻撃で ~10% 上回る。
アブレーション研究は特徴散乱が頑健性の主要な要因であることを示し、OTベースのマッチング（OT）がマッチング方式の中で最も良い性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。