Skip to main content
QUICK REVIEW

[논문 리뷰] Poisoning Attacks and Defenses on Artificial Intelligence: A Survey

Miguel A. Ramirez, Song-Kyoo Kim|arXiv (Cornell University)|2022. 02. 21.
Adversarial Robustness in Machine Learning인용 수 26
한 줄 요약

본 설문은 ML 학습 중 데이터 오염 공격과 이를 탐지하고 완화하기 위한 방어 메커니즘을 검토하며, 다양한 모델 유형과 응용 도메인을 다룹니다.

ABSTRACT

Machine learning models have been widely adopted in several fields. However, most recent studies have shown several vulnerabilities from attacks with a potential to jeopardize the integrity of the model, presenting a new window of research opportunity in terms of cyber-security. This survey is conducted with a main intention of highlighting the most relevant information related to security vulnerabilities in the context of machine learning (ML) classifiers; more specifically, directed towards training procedures against data poisoning attacks, representing a type of attack that consists of tampering the data samples fed to the model during the training phase, leading to a degradation in the models accuracy during the inference phase. This work compiles the most relevant insights and findings found in the latest existing literatures addressing this type of attacks. Moreover, this paper also covers several defense techniques that promise feasible detection and mitigation mechanisms, capable of conferring a certain level of robustness to a target model against an attacker. A thorough assessment is performed on the reviewed works, comparing the effects of data poisoning on a wide range of ML models in real-world conditions, performing quantitative and qualitative analyses. This paper analyzes the main characteristics for each approach including performance success metrics, required hyperparameters, and deployment complexity. Moreover, this paper emphasizes the underlying assumptions and limitations considered by both attackers and defenders along with their intrinsic properties such as: availability, reliability, privacy, accountability, interpretability, etc. Finally, this paper concludes by making references of some of main existing research trends that provide pathways towards future research directions in the field of cyber-security.

연구 동기 및 목표

  • 학습 데이터를 변조하여 모델 성능을 저하시키는 데이터 오염 공격을 요약한다.
  • 비신경망 및 신경망 전반의 공격 전략을 조사하며, 라벨 플리핑, SVM, 클러스터링, NN 기반 오염, GAN 기반 공격, 프라이버시 인식 공격 등을 포함한다.
  • 데이터 및 모델 보호를 위한 방어 기법을 검토하고, 협력학습 및 연합학습 방어, 견고성, 배포상의 도전과제를 강조한다.
  • AI 시스템의 사이버보안을 개선하기 위한 가정, 한계 및 향후 연구 방향을 식별한다.

제안 방법

  • 독성 공격을 범주로 분류하고 공격자의 목표, 능력, 및 가정을 요약한다.
  • 대표적인 공격 기전과 학습 데이터 또는 모델 경계를 조작하는 방법을 설명한다.
  • 협력 학습 및 연합 학습 환경에서의 탐지 및 완화를 포함한 방어 전략을 검토한다.
  • 방어책의 강건성 및 프라이버시 고려사항을 포함한 성능 지표 및 배포 고려사항을 분석한다.

실험 결과

연구 질문

  • RQ1학습 중 ML 모델에 영향을 주는 주요 데이터 오염 공격 전략은 무엇인가?
  • RQ2협력 학습 및 연합 학습에서 데이터 오염을 탐지하고 완화하기 위한 방어 기법은 무엇이 있으며, 서로 다른 가정 하에서 얼마나 효과적인가?
  • RQ3오염 시나리오에서 일반적으로 고려되는 공격자의 능력과 보안 요건은 무엇이며, 이것이 방어 설계에 어떤 영향을 미치는가?
  • RQ4오염 공격에 대한 강건성과 AI 시스템의 보안을 강화하기 위해 제시된 향후 연구 방향은 무엇인가?

주요 결과

  • 본 설문은 라벨 플리핑, SVM-대상 공격, 클러스터링 오염, 기울기 기반 NN 오염, GAN 기반 접근법을 포함한 다양한 모델에 걸친 광범위한 오염 기법을 수집한다.
  • 방어책은 데이터 수준 보호와 모델 수준 보호로 분류되며, 협력 학습 및 연합 학습 환경과 이상 업데이트 탐지에 중점을 둔다.
  • 공격 효과성은 화이트박스, 블랙박스, 그레이박스 가정을 통해 평가되며, 지식과 이용 가능한 데이터가 공격 성공에 어떻게 영향을 주는지 강조한다.
  • 오염 내성 평가를 위한 지표에는 정확도 저하, ROC/AUC, 보안 평가 곡선이 포함되며 표준 AI 지표와 맥락적으로 제시된다.
  • 논문은 공격자와 방어자의 한계와 가정을 강조하고 AI를 위한 사이버 보안의 향후 연구 방향을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.