QUICK REVIEW

[論文レビュー] Instance adaptive adversarial training: Improved accuracy tradeoffs in neural nets

Yogesh Balaji, Tom Goldstein|arXiv (Cornell University)|Oct 17, 2019

Adversarial Robustness in Machine Learning参考文献 21被引用数 66

ひとこと要約

本論文は、訓練中にサンプルごとの摂動半径を割り当てるインスタンス適応型 adversarial training（IAAT）を提案し、クリーンな精度を同等の頑健性とともに改善することを示す。CIFAR-10/100 および ImageNet で実証されている。

ABSTRACT

Adversarial training is by far the most successful strategy for improving robustness of neural networks to adversarial attacks. Despite its success as a defense mechanism, adversarial training fails to generalize well to unperturbed test set. We hypothesize that this poor generalization is a consequence of adversarial training with uniform perturbation radius around every training sample. Samples close to decision boundary can be morphed into a different class under a small perturbation budget, and enforcing large margins around these samples produce poor decision boundaries that generalize poorly. Motivated by this hypothesis, we propose instance adaptive adversarial training -- a technique that enforces sample-specific perturbation margins around every training sample. We show that using our approach, test accuracy on unperturbed samples improve with a marginal drop in robustness. Extensive experiments on CIFAR-10, CIFAR-100 and Imagenet datasets demonstrate the effectiveness of our proposed approach.

研究の動機と目的

標準的な adversarial training における頑健性と精度のトレードオフを動機づけ、均一な摂動半径に起因する限界を指摘する。
IAAT を提案し、サンプルごとに摂動半径を割り当てることで、頑健性を保ちつつクリーンな精度をより良く保持する。
IAAT がCIFAR-10/100とImageNetのデータセットで、頑健性の低下を最小限に抑えつつ自然テスト精度を改善することを実証的に示す。
解釈性の知見を提供する：小さな半径は境界の曖昧さや近傍の矛盾するサンプルと相関し、大きな半径は明確なクラスと相関する。
先行の適応マージン研究と IAAT を比較し、さまざまなテスト摂動に対する頑健性を分析する。

提案手法

IAAT を、サンプルごとの摂動予算を用いた最小-最大目的関数として定式化する： min_theta max_{||delta_i||_infty <= epsilon_i} Loss( x_i + delta_i, y_i ).
均一な epsilon を用いたウォームアップ期間で初期化し、その後サンプルごとの epsilon に切り替える。
各サンプルの敵対例を作成した後、PGD が成功した場合は epsilon_i--、失敗した場合は epsilon_i++ に基づいて epsilon_i を調整し、エポック間でメモリ機構を介して平滑化する。
Algorithm 1 は、敵対的な例の生成とパラメータ更新を交互に行う訓練ループを提供する。
Algorithm 2 は、以前の値の周囲で離散的な探索を介してサンプルごとの epsilon を更新・安定化させる。
本手法は、クラス多様体が十分に分離されている領域ではより大きな半径を、意思決定境界近傍では小さな半径を選択することを強調し、より良いトレードオフを達成する。
実験にはResNetおよびWideResNetアーキテクチャを用いたCIFAR-10/100と、ResNet系モデルを用いたImageNetを含み、自然精度、ホワイトボックスおよび転移ロバスト性、破損ロバスト性を評価する。

実験結果

リサーチクエスチョン

RQ1標準的な均一半径の adversarial training と比較して、一定の頑健性レベルでサンプルごとの adversarial 半径を課すことはクリーン精度を改善するか。
RQ2IAAT は標準的な adversarial training における従来の頑健性と精度のパレート前線を破ることができるか。
RQ3学習されたサンプルごとの半径は、データの曖昧さとクラス境界に対してどれくらい解釈可能か。
RQ4IAAT の利得はデータセット（CIFAR-10/100、ImageNet）とアーキテクチャ全体で一般化するか。
RQ5ウォームアップとサンプルごとの半径のダイナミクスが、未知の破損に対する頑健性に与える影響は何か。

主な発見

IAAT は CIFAR-10/100 で標準的な adversarial training と同等の頑健性で自然テスト精度を改善する（例：同等またはわずかに低下した対抗的頑健性で顕著なクリーン精度の向上）。
IAAT は unseen 画像破損に対する頑健性を生み出し、一般化が改善されていることを示す。
ImageNet では、IAAT は ResNet 系モデル全体で自然精度を大幅に向上させ、対抗的訓練より+10%超の自然精度を達成し、低い摂動強度で競合する頑健性を維持するが、より高い epsilon ではいくつかのトレードオフが生じる。
サンプルごとの epsilon は人間の曖昧性の感覚と相関する：境界近傍のサンプルは小さな epsilon を受け取り，明確なサンプルは大きな epsilon を受け取る。
ウォームアップは自然精度のわずかな低下と引き換えに頑健性を改善し、ウォームアップなしの IAAT もトレードオフを改善するが、CIFAR-100 では一般にウォームアップが頑健性をより助ける。
IAAT は強力な攻撃に対して Mixup-adversarial training を上回ることがあり、自然精度を維持しつつ頑健性を保持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。