[論文レビュー] Blocking Transferability of Adversarial Examples in Black-Box Learning Systems
本論文は、黒箱学習における敵対的例の転移性を阻止するNULLラベリング防御を提案し、クリーンデータの精度を維持しつつ敵対的入力をNULLとして拒否するよう分類器を訓練する。
Advances in Machine Learning (ML) have led to its adoption as an integral component in many applications, including banking, medical diagnosis, and driverless cars. To further broaden the use of ML models, cloud-based services offered by Microsoft, Amazon, Google, and others have developed ML-as-a-service tools as black-box systems. However, ML classifiers are vulnerable to adversarial examples: inputs that are maliciously modified can cause the classifier to provide adversary-desired outputs. Moreover, it is known that adversarial examples generated on one classifier are likely to cause another classifier to make the same mistake, even if the classifiers have different architectures or are trained on disjoint datasets. This property, which is known as transferability, opens up the possibility of attacking black-box systems by generating adversarial examples on a substitute classifier and transferring the examples to the target classifier. Therefore, the key to protect black-box learning systems against the adversarial examples is to block their transferability. To this end, we propose a training method that, as the input is more perturbed, the classifier smoothly outputs lower confidence on the original label and instead predicts that the input is "invalid". In essence, we augment the output class set with a NULL label and train the classifier to reject the adversarial examples by classifying them as NULL. In experiments, we apply a wide range of attacks based on adversarial examples on the black-box systems. We show that a classifier trained with the proposed method effectively resists against the adversarial examples, while maintaining the accuracy on clean data.
研究の動機と目的
- 黒箱学習システムにおける敵対的転移の脅威を動機づけ、形式化する。
- 敵対的入力を拒否するNULLラベルを追加することで分類器を強化する防御を導入する。
- 様々な攻撃設定とプラットフォーム下でMNISTとGTSRBでNULLラベリング手法の頑健性を示す。
- クリーンデータ対敵対的入力での精度に対する頑健な学習とNULLラベリングの影響を評価する。
提案手法
- 敵対者に対するブラックボックスおよびブラインド(盲検)脅威モデルを定義する。
- クリーンデータと敵対的例の間を交互に用いて代替分類器を訓練し、ラベルを問合せるオラクルでラベルを取得する。
- 出力にNULLラベルを追加し、一般化を助けるラベルスムージングを用いる。
- 高誤分類攻撃グリーディ(MG)法を検証データ上の誤分類確率の計算に用いる。
- 勾配に基づく滑らかなターゲット攻撃(STG)を敵対的特徴を用いた adversarial training に適用する。
- DNN、頑健DNN、ML-as-a-Serviceプラットフォーム(AWS/AmazonとMicrosoft Azure)間で転移性と頑健性を評価する。
実験結果
リサーチクエスチョン
- RQ1代替分類器上で作成された敵対的例は、ターゲットとなる黒箱分類器へ転移することがあるか。
- RQ2NULLラベルを分類器に追加し、敵対的例で訓練することで転移性を低減しつつクリーンデータの精度を保てるか。
- RQ3ブラックボックス対盲検の異なる脅威モデルは、攻撃の成功と転移性にどのように影響するか。
- RQ4NULLラベリングが実務的なMLサービス(AWS/Amazon, Microsoft Azure)および公開データセットMNISTとGTSRBに与える影響はどうか。
- RQ5頑健な訓練の変種はNULLラベリング防御と比較して、敵対的転移耐性をどう改善するか。
主な発見
| 機械学習分類器 | MNIST | GTSRB |
|---|---|---|
| DNN | 99.35% | 97.77% |
| DNN trained with Robust0 | 98.81% | 97.05% |
| DNN trained with Robust∞ | 99.39% | 96.80% |
| Amazon Oracle | 92.00% | 72.81% |
| Microsoft Oracle | 97.73% | 85.76% |
- 敵対的例の転移性は、より大きな摂動がある場合に黒箱システムへの攻撃の成功を高める。
- NULLラベリングとラベルスムージングを組み合わせると、摂動の大きい敵対的入力をNULLクラスへ写像しつつ、クリーンデータの精度を保つことができる。
- MNIST では、NULLラベリング分類器への敵対的例の転移性は実質的にゼロ(ゼロ転移)。
- GTSRB では、L0攻撃では転移性がほぼゼロ、L∞攻撃でも10%未満であり、NULLラベリングモデルは有効に敵対的転移を抑制。
- 頑健訓練の変種はデータセット間でクリーンデータの精度にばらつきを示すが、一般的に一定の耐性を提供し、NULLラベリング手法は検証済みベンチマークで標準的な敵対訓練より上回る。
- 精度の結果は以下のMNISTとGTSRBの正確な数値を示す:DNN 99.35% / 97.77%; Robust0 98.81% / 97.05%; Robust∞ 99.39% / 96.80%; AWS Amazon 92.00% / 72.81%; Microsoft 97.73% / 85.76%。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。