QUICK REVIEW

[論文レビュー] On Certifying Robustness against Backdoor Attacks via Randomized Smoothing

Binghui Wang, Xiaoyu Cao|arXiv (Cornell University)|Feb 26, 2020

Adversarial Robustness in Machine Learning参考文献 28被引用数 59

ひとこと要約

この論文はバックドア攻撃に対する頑健性を認定するためにランダム化平滑化を拡張し、基底関数としてトレーニングと予測を扱い、トレーニングデータ、テストデータ、ラベルにノイズを加えて攻撃者の摂動を制約する。理論的実現可能性を示す一方、既存の平滑化手法はバックドアに対して限定的な効果しかなく、新しい理論と手法の必要性を強調する。

ABSTRACT

Backdoor attack is a severe security threat to deep neural networks (DNNs). We envision that, like adversarial examples, there will be a cat-and-mouse game for backdoor attacks, i.e., new empirical defenses are developed to defend against backdoor attacks but they are soon broken by strong adaptive backdoor attacks. To prevent such cat-and-mouse game, we take the first step towards certified defenses against backdoor attacks. Specifically, in this work, we study the feasibility and effectiveness of certifying robustness against backdoor attacks using a recent technique called randomized smoothing. Randomized smoothing was originally developed to certify robustness against adversarial examples. We generalize randomized smoothing to defend against backdoor attacks. Our results show the theoretical feasibility of using randomized smoothing to certify robustness against backdoor attacks. However, we also find that existing randomized smoothing methods have limited effectiveness at defending against backdoor attacks, which highlight the needs of new theory and methods to certify robustness against backdoor attacks.

研究の動機と目的

適応的な敵に耐えるためのバックドア攻撃に対して認定防御を動機づける。
敵対的頑健性からバックドア頑健性へ、ランダム化平滑化を一般化する。
トレーニングと予測の過程を捉える基底関数を形式化し、頑健性を認定するために平滑化を適用する。
MNISTのサブセットでアプローチを実証的に評価し、実現可能性と制限を評価する。

提案手法

トレーニングと予測の過程を基底関数 f と見なし、認定半径を有する平滑化された関数 g を得る。
離散データへ平滑化フレームワークを拡張し、トレーニングデータ X、ラベル y、テスト例 x にノイズを加えるディメンションごとの離散ノイズモデルを用いる。
モンテカルロサンプリングを用いて Pr(f(v⊕ε)=l) の下限 p_l を推定し、Clopper–Pearson により認定半径 R(p_l) を導出する。
摂動データセット (X⊕τ, y⊕ε) の下で N 個の分類器を訓練し、認定のために検証用テスト入力の予測を評価してラベル頻度を計算する。
Bonferroni補正を用いてテスト例全体にわたる同時信頼性保証を提供する。

実験結果

リサーチクエスチョン

RQ1離散データとバックドア風摂動の下で、全体のトレーニング-and-prediction パイプラインを基底関数と見なして、ランダム化平滑化はバックドア攻撃に対する頑健性を認定できるか？
RQ2離散データとバックドア風摂動の下で、認定半径はどの程度得られるか？
RQ3付加ノイズを用いた既存のランダム化平滑化手法は、実践的にバックドアの脅威を軽減するのにどれくらい効果的か？
RQ4平滑化ベースのバックドア認定防御の理論的・実証的限界は？

主な発見

このアプローチは、ランダム化平滑化を用いてバックドア攻撃に対する頑健性を認定することが理論的に可能である。
MNISTのサブセットで、攻撃者がトレーニングデータの最大2ピクセル/ラベル、テスト画像のピクセルを摂動した場合でも、36% のテスト画像が正しく分類されるように頑健性を認定できる。
既存の加法ノイズを用いたランダム化平滑化手法は、評価された設定でバックドア攻撃に対して限られた効果を示した。
研究は、バックドアに対する認定を改善する新しい理論と手法の必要性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。