Skip to main content
QUICK REVIEW

[論文レビュー] SLAP: Improving Physical Adversarial Examples with Short-Lived Adversarial Perturbations

Giulio Lovisotto, Henry Turner|arXiv (Cornell University)|Jul 8, 2020
Adversarial Robustness in Machine Learning参考文献 26被引用数 28
ひとこと要約

本稿では、ライトプロジェクタを用いて一時的で動的な悪意ある摂動を実世界の物体(停止標識など)に生成する、新しい物理的悪意ある攻撃手法SLAPを提案する。プロジェクタ、表面、カメラの認識の三者間の加法的関係をモデル化することで、低照度下で最先端のモデルに対して最大99%の攻撃成功率を達成し、SentiNetによる検出を回避し、微細な制御が可能なリモートで即時の攻撃を可能にする。

ABSTRACT

Research into adversarial examples (AE) has developed rapidly, yet static adversarial patches are still the main technique for conducting attacks in the real world, despite being obvious, semi-permanent and unmodifiable once deployed. In this paper, we propose Short-Lived Adversarial Perturbations (SLAP), a novel technique that allows adversaries to realize physically robust real-world AE by using a light projector. Attackers can project a specifically crafted adversarial perturbation onto a real-world object, transforming it into an AE. This allows the adversary greater control over the attack compared to adversarial patches: (i) projections can be dynamically turned on and off or modified at will, (ii) projections do not suffer from the locality constraint imposed by patches, making them harder to detect. We study the feasibility of SLAP in the self-driving scenario, targeting both object detector and traffic sign recognition tasks, focusing on the detection of stop signs. We conduct experiments in a variety of ambient light conditions, including outdoors, showing how in non-bright settings the proposed method generates AE that are extremely robust, causing misclassifications on state-of-the-art networks with up to 99% success rate for a variety of angles and distances. We also demostrate that SLAP-generated AE do not present detectable behaviours seen in adversarial patches and therefore bypass SentiNet, a physical AE detection method. We evaluate other defences including an adaptive defender using adversarial learning which is able to thwart the attack effectiveness up to 80% even in favourable attacker conditions.

研究の動機と目的

  • 静的悪意あるパッチの限界、すなわち検出可能で、半永久的で、現実世界の物理的攻撃において動的制御ができないという問題を解決すること。
  • オン/オフ可能またはリアルタイムで変更可能なライトプロジェクタを用いた物理的に強固で動的な悪意ある攻撃ベクトルを開発すること。
  • 屋外の照明状況や異なる視点など、さまざまな環境条件下でも悪意ある例の強度を向上させること。
  • 実世界のシナリオにおいて、最先端の物体検出器および交通標識認識モデルに対するSLAPの有効性を評価すること。
  • SentiNetのような検出メカニズムや、悪意ある学習を用いた適応的防御者を含む、既存の防御策に対するSLAPの耐性を評価すること。

提案手法

  • 投影面、投影色、カメラによる認識出力の三者間の相互作用を捉える微分可能で三重加法的な色モデルを提案する。
  • 実世界の歪みや照明効果を考慮して、投影画像を逆伝播することで悪意ある摂動を最適化する。
  • 環境要因(環境光、プロジェクタとの距離、投射比、発光度)を体系的にモデル化し、物理的環境における耐性を強化する。
  • プロジェクタを用いて実世界の物体に設計された悪意あるパターンを動的に投影し、即時の短時間攻撃を可能にする。
  • 文脈に応じた特徴(例:標識の支柱、テーブルなど)を統合することで、物体検出器に対する攻撃成功率を向上させる。
  • 一つのモデルで攻撃を生成し、他のモデルでテストすることで、一般化性を評価する。これにはGoogle Visionなどの特許を取得したAPIも含まれる。

実験結果

リサーチクエスチョン

  • RQ1ライトプロジェクションによって生成される一時的悪意ある摂動は、変動する環境光条件下でも、実世界の物体検出器および交通標識認識装置に対して高い成功率を達成できるか?
  • RQ2物理的プロジェクションプロセスは悪意ある耐性にどのように影響するのか?また、一貫した攻撃性能を確保するために、正確にモデル化可能か?
  • RQ3SLAPは、静的パッチを想定した物理的悪意ある例検出システムSentiNetを回避できるか?
  • RQ4攻撃は、ブラックボックス環境を含むさまざまなモデルにどの程度一般化されるか?
  • RQ5悪意ある学習に基づく適応的防御は、SLAP攻撃をどの程度緩和できるか?また、通常の精度にどのようなトレードオフが生じるか?

主な発見

  • SLAPは、低照度環境(400ルクス未満)下で最先端のモデル(Yolov3、Mask-RCNN、Lisa-CNN、Gtsrb-CNN)に対して最大99%の攻撃成功率を達成した。特に曇りの日や日没直後のような明るくない状況で顕著であった。
  • 12,000ルーメンの高出力プロジェクタを用いて最大13メートルの距離からも攻撃が有効であり、最適化された発光度と投射比のおかげで距離が増加しても攻撃成功率が維持された。
  • SLAPはSentiNetの検出を効果的に回避し、95%以上のケースで検出を回避した。これは、悪意あるパッチに特徴的な持続的で局所的な摂動が存在しないためである。
  • Mask-RCNNおよびYolov3を用いて生成した悪意ある例は、特許を取得したGoogle Vision APIに対しても100%の成功率で一般化され、ブラックボックスでの一般化性が顕著に示された。
  • 悪意ある学習を用いた適応的防御者は、攻撃者に有利な条件下であっても攻撃成功率を80%以下に低下させることができたが、通常の状況下での精度が低下するという代償を伴った。
  • 車のヘッドライトは攻撃性能にほとんど影響を及ぼさず、特に都市部ではハイビームが通常オフであるため、プロジェクタの出力に比べてその発光度は著しく小さいことが分かった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。