Skip to main content
QUICK REVIEW

[論文レビュー] Poisoning Attacks and Defenses on Artificial Intelligence: A Survey

Miguel A. Ramirez, Song-Kyoo Kim|arXiv (Cornell University)|Feb 21, 2022
Adversarial Robustness in Machine Learning被引用数 26
ひとこと要約

この調査は、機械学習のトレーニング中のデータポイズニング攻撃と、それらを検出・緩和する防御機構をレビューし、さまざまなモデルタイプとアプリケーション領域を対象としています。

ABSTRACT

Machine learning models have been widely adopted in several fields. However, most recent studies have shown several vulnerabilities from attacks with a potential to jeopardize the integrity of the model, presenting a new window of research opportunity in terms of cyber-security. This survey is conducted with a main intention of highlighting the most relevant information related to security vulnerabilities in the context of machine learning (ML) classifiers; more specifically, directed towards training procedures against data poisoning attacks, representing a type of attack that consists of tampering the data samples fed to the model during the training phase, leading to a degradation in the models accuracy during the inference phase. This work compiles the most relevant insights and findings found in the latest existing literatures addressing this type of attacks. Moreover, this paper also covers several defense techniques that promise feasible detection and mitigation mechanisms, capable of conferring a certain level of robustness to a target model against an attacker. A thorough assessment is performed on the reviewed works, comparing the effects of data poisoning on a wide range of ML models in real-world conditions, performing quantitative and qualitative analyses. This paper analyzes the main characteristics for each approach including performance success metrics, required hyperparameters, and deployment complexity. Moreover, this paper emphasizes the underlying assumptions and limitations considered by both attackers and defenders along with their intrinsic properties such as: availability, reliability, privacy, accountability, interpretability, etc. Finally, this paper concludes by making references of some of main existing research trends that provide pathways towards future research directions in the field of cyber-security.

研究の動機と目的

  • 推論時のモデル性能低下を狙ってトレーニングデータを改ざんするデータポイズニング攻撃を要約する。
  • 非ニューラルネットワークおよびニューラルネットワークにわたる攻撃戦略を調査し、ラベル反転、SVM、クラスタリング、NNベースのポイズニング、GANベースの攻撃、およびプライバシー認識攻撃を含む。
  • データとモデル保護の防御技術を検討し、協調型学習と連合学習の防御、堅牢性、配置上の課題を強調する。
  • AIシステムのサイバーセキュリティを向上させるための前提条件、制約、今後の研究方向を特定する。

提案手法

  • ポイズニング攻撃をカテゴリに分類し、攻撃者の目標、能力、および前提条件を要約する。
  • 代表的な攻撃メカニズムと、それらがトレーニングデータやモデル境界をどのように操作するかを説明する。
  • 協調学習および連合学習設定における検出と緩和を含む防御戦略を検討する。
  • 堅牢性とプライバシーを含む防御の性能指標と導入上の考慮事項を分析する。

実験結果

リサーチクエスチョン

  • RQ1トレーニング中にMLモデルに影響を与える主なデータポイズニング攻撃戦略は何か。
  • RQ2協調学習と連合学習でデータポイズニングを検出・緩和する防御技術は何があり、異なる前提条件下でどの程度有効か。
  • RQ3ポイズニングシナリオで考慮される共通の攻撃者能力とセキュリティ要件は何か、そしてそれが防御設計にどう影響するか。
  • RQ4ポイズニング攻撃に対するAIシステムの堅牢性とセキュリティを向上させるための今後の研究方向は何が提案されているか。

主な発見

  • 本調査は、ラベル反転、SVMターゲット攻撃、クラスタリングポイズニング、勾配ベースのNNポイズニング、GANベースのアプローチを含む、多様なモデルにわたる広範なポイズニング手法を網羅している。
  • 防御はデータレベルの保護とモデルレベルの保護に分類され、協調学習と連合学習設定および異常な更新の検出に重点が置かれている。
  • 攻撃の有効性はホワイトボックス、ブラックボックス、グレーボックスの前提の下で評価され、知識と利用可能なデータが攻撃成功にどのように影響するかを強調する。
  • ポイズニング耐性を評価する指標には、精度の低下、ROC/AUC、セキュリティ評価曲線が含まれ、標準的なAI指標と文脈づけられている。
  • 本論文は、攻撃者と防御者の両方の制約と前提を強調し、AIのサイバーセキュリティにおける今後の研究方向を提案している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。