QUICK REVIEW

[論文レビュー] Breaking certified defenses: Semantic adversarial examples with spoofed robustness certificates

Amin Ghiasi, Ali Shafahi|arXiv (Cornell University)|Mar 19, 2020

Adversarial Robustness in Machine Learning参考文献 30被引用数 23

ひとこと要約

本稿では、証明可能に頑健な分類器をだますために、大きなノルムと意味的に自然な摂動を生成する、新たな adversarial example の手法「Shadow Attack」を提案する。分類器のラベルとその頑健性証明生成器の両方を活用することで、誤分類を引き起こすと同時に、偽の高信頼度の証明を生成し、実際の正しさやセキュリティを保証しないことが示された。

ABSTRACT

To deflect adversarial attacks, a range of "certified" classifiers have been proposed. In addition to labeling an image, certified classifiers produce (when possible) a certificate guaranteeing that the input image is not an $\\ell_p$-bounded adversarial example. We present a new attack that exploits not only the labelling function of a classifier, but also the certificate generator. The proposed method applies large perturbations that place images far from a class boundary while maintaining the imperceptibility property of adversarial examples. The proposed "Shadow Attack" causes certifiably robust networks to mislabel an image and simultaneously produce a "spoofed" certificate of robustness.

研究の動機と目的

証明可能な頑健性を安全保証として用いる頑健な分類器における深刻な脆弱性を暴露すること。
誤分類を引き起こすと同時に、高信頼度ではあるが誤りである証明を生成することで、誤った安心感をもたらす攻撃を開発すること。
証明可能な頑健性が、意味的摂動下でも信頼できるモデル動作を示すと仮定することを挑戦すること。
大きなノルムの、目立たない摂動が、最先端の証明可能な頑健なモデルの認証領域を回避しつつも、視覚的に妥当なままであることを示すこと。

提案手法

Shadow Attackは、大きなノルムで意味的に自然な摂動を用いて adversarial examples を構築し、視覚的に自然かつ目立たないものとする。
分類器の予測と証明生成器の両方を標的とし、交差エントロピー、全変動、および頑健性境界正則化項を組み合わせた損失関数を用いる。
IBPに基づく証明可能な防御（例：CROWN-IBP）の学習目的を活用して、誤分類されつつも大きな認証半径内に位置する画像を生成する。
感知性を最小限に抑えつつ摂動のノルムを最大化するため、グリーディーな HSV 空間変換を用いる。これにより、認証領域からの脱出が可能になる。
白箱設定で攻撃を実行し、勾配ベースの最適化を用い、誤分類と強力な証明生成を両立させるカスタム損失関数を導入する。
CIFAR-10 で ε = 2/255 および ε = 8/255 で学習された CROWN-IBP モデルを用いた実験を行い、効率を考慮して 1 チャネル攻撃に焦点を当てる。

実験結果

リサーチクエスチョン

RQ1誤分類を引き起こすと同時に、偽の高信頼度の頑健性証明を生成できる adversarial examples を作成できるか？
RQ2大きなノルムで意味的に自然な摂動は、最先端の証明可能な頑健なモデルの認証領域を回避できるか？
RQ3強力な証明が存在することは、実際のモデルの頑健性や正しさの信頼できる指標となるか？
RQ4証明生成プロセス自体が、adversarial 入力に対して「偽装された」証明を生成するために悪用可能か？
RQ5証明を意図的に強化した場合、自然画像と攻撃画像の間で頑健性誤差はどのように異なるか？

主な発見

ε = 2/255 の場合、Shadow Attack は 45.90% から 65.74% の割合で認証されることが判明し、偽の証明が頻繁に生成されることを示している。
ε = 8/255 の場合、攻撃による認証率（63.43% から 71.16%）が、モデルの自然な頑健性誤差（71.28% から 73.66%）を上回っており、攻撃画像が清澄画像よりも認証されやすいことが示された。
攻撃は認証半径を上回る大きな ℓ∞-ノルムの摂動を生成しているが、視覚的に自然で目立たないままである。
ε = 8/255 の設定において、自然画像の頑健性誤差は攻撃画像よりも高いことが判明し、攻撃が証明生成器を効果的に操作したことが示された。
攻撃の成功は、証明生成器が摂動を加えた画像を頑健であると誤認してしまい、実際にはモデルが誤分類していることに起因する。
結果として、証明可能な頑健性が正しさを示すとは限らないことが示された。誤った入力に対しても偽の証明を生成できることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。