[論文レビュー] DARCCC: Detecting Adversaries by Reconstruction from Class Conditional Capsules
DARCCCは、Capsule Network内の最上位レベルのキャプセルのポーズとアイデンティティから生成された再構成画像と入力画像との間のL2再構成誤差を測定することで、敵対的画像を検出する。MNIST、Fashion-MNIST、SVHNの複数のデータセットで、白ボックス攻撃に対しても高い検出率を達成しているが、再構成に配慮した攻撃(R-BIM)により、敵対的画像がターゲットクラスに類似するようになることで検出を回避できる場合がある。
We present a simple technique that allows capsule models to detect adversarial images. In addition to being trained to classify images, the capsule model is trained to reconstruct the images from the pose parameters and identity of the correct top-level capsule. Adversarial images do not look like a typical member of the predicted class and they have much larger reconstruction errors when the reconstruction is produced from the top-level capsule for that class. We show that setting a threshold on the $l2$ distance between the input image and its reconstruction from the winning capsule is very effective at detecting adversarial images for three different datasets. The same technique works quite well for CNNs that have been trained to reconstruct the image from all or part of the last hidden layer before the softmax. We then explore a stronger, white-box attack that takes the reconstruction error into account. This attack is able to fool our detection technique but in order to make the model change its prediction to another class, the attack must typically make the "adversarial" image resemble images of the other class.
研究の動機と目的
- データ多様体や敵対的分布に関する仮定に依存しない、攻撃に依存しない敵対的検出手法の開発。
- キャプセルネットワークの再構成サブネットワークを活用し、再構成の忠実度に基づいて敵対的例を検出する。
- 最後の隠れ層からの特徴量から再構成するように訓練された標準的なCNNに検出手法を拡張する。
- 複数のデータセットにおけるブラックボックスおよびホワイトボックス攻撃に対する検出性能を評価する。
- DARCCC検出を回避できるように再構成誤差を考慮した新たなホワイトボックス攻撃(R-BIM)を設計する。
提案手法
- 入力画像を、予測された最上位レベルのキャプセルのポーズとアイデンティティから再構成する再構成ヘッドを備えたキャプセルネットワークを訓練する。
- 入力画像とその再構成画像との間のL2距離を、敵対的例の検出指標として使用する。
- 再構成誤差に固定しきい値を適用し、誤差がしきい値を超える場合は入力を敵対的とマークする。
- 最後のソフトマックス層前の隠れ層からの特徴量から再構成するように訓練されたCNNに、同じ再構成誤差指標を用いて同様の手法を拡張する。
- DARCCC検出を回避できるように、分類損失と再構成誤差の両方を同時に最小化する新しい攻撃(R-BIM)を設計する。
- 勾配ステップを用いた反復的最適化を実行し、誤分類と良好な再構成品質の両方を考慮する。
実験結果
リサーチクエスチョン
- RQ1クラス条件付きキャプセル表現からの再構成誤差は、異なるデータセットにおいて敵対的例を効果的に検出できるか?
- RQ2DARCCCはブラックボックスおよびホワイトボックス攻撃(FGSMおよびBIMを含む)に対してどのように性能を発揮するか?
- RQ3隠れ表現からの再構成を学習するように訓練された標準的なCNNに対しても、この検出手法を一般化できるか?
- RQ4再構成に配慮した攻撃(R-BIM)は、DARCCCの検出性能にどのような影響を与えるか?
- RQ5再構成誤差を最小化するように設計された敵対的例は、視覚的に妥当で、ターゲットクラスの画像に類似しているか?
主な発見
- DARCCCは、MNIST、Fashion-MNIST、SVHNの各データセットで、FGSMおよびBIM攻撃に対して95%を超える高い攻撃検出率と、90%を超える成功した攻撃検出率を達成している。
- 特にSVHNにおいては、キャプセルモデルがCNNよりも検出精度で優れている。
- シンプルなデータセットでは再構成誤差と意味的類似性の相関が強いが、ImageNet や CIFAR-10 などの複雑なデータセットではこの相関が弱まる。
- R-BIM攻撃は、ターゲットクラスに類似する敵対的画像を生成することで、DARCCCの検出を効果的に回避できる。
- 検出を回避できたとしても、R-BIMは標準的なBIM攻撃ほどモデルの予測を変更する効果が著しく低いことが判明し、検出回避と誤分類の間にはトレードオフがあることが示された。
- 再構成誤差を最小化するように設計された敵対的例は、しばしばターゲットクラスの実際の画像に類似しており、データ多様体と整合していることが示唆された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。