[논문 리뷰] Adversarial Attacks and Defences: A Survey
적대적 공격의 포괄적 고찰: 심층 학습에 대한 위협 모델(화이트박스/블랙박스), 공격 표면, 탐색적 및 포이즌 공격, 방어 및 실용적 통찰과 분류 체계.
Deep learning has emerged as a strong and efficient framework that can be applied to a broad spectrum of complex learning problems which were difficult to solve using the traditional machine learning techniques in the past. In the last few years, deep learning has advanced radically in such a way that it can surpass human-level performance on a number of tasks. As a consequence, deep learning is being extensively used in most of the recent day-to-day applications. However, security of deep learning systems are vulnerable to crafted adversarial examples, which may be imperceptible to the human eye, but can lead the model to misclassify the output. In recent times, different types of adversaries based on their threat model leverage these vulnerabilities to compromise a deep learning system where adversaries have high incentives. Hence, it is extremely important to provide robustness to deep learning algorithms against these adversaries. However, there are only a few strong countermeasures which can be used in all types of attack scenarios to design a robust deep learning system. In this paper, we attempt to provide a detailed discussion on different types of adversarial attacks with various threat models and also elaborate the efficiency and challenges of recent countermeasures against them.
연구 동기 및 목표
- 심층 신경망 및 관련 모델에 대한 적대적 공격의 흐름(개요)을 요약한다.
- 위협 모델, 단계(훈련 vs 테스트), 응용 분야별로 공격을 구성한다.
- 공격 클래스별 방어책과 그 한계를 논의한다.
- 강건한 ML 시스템 설계를 위한 분류체계와 실용적 지침을 제공한다.
제안 방법
- 용어와 위협 모델에 대한 질적 분류체계를 개발한다.
- 훈련과 테스트 단계에 걸친 공격 표면과 적대적 능력을 분류한다.
- 탐색적, 회피(evading), 포이즈닝 공격과 관련 방어를 체계적으로 검토한다.
- 주요 연구와 교차참조를 통해 주목할 만한 공격과 응용 사례를 조사한다.
실험 결과
연구 질문
- RQ1머신러닝 시스템의 주요 위협 모델과 공격 표면은 무엇인가?
- RQ2훈련 시점(포이즈닝)과 테스트 시점(회피) 시나리오에서 공격은 어떻게 다른가?
- RQ3어떤 방어 접근법이 존재하며, 공격 클래스 전반에 걸친 한계는 무엇인가?
- RQ4ML API를 포함한 실제 시스템과 서비스에서 입증된 공격은 무엇인가?
- RQ5강건한 설계를 안내하기 위해 적대적 위협을 어떻게 개념적으로 조직할 수 있는가?
주요 결과
- 화이트박스와 블랙박스 공격 모델은 대상 모델 및 학습 과정에 대한 공격자의 지식으로 구분된다.
- 회피(attacks) 공격은 테스트 시점 위협을 지배하며, 포이즈닝 공격은 훈련 데이터와 모델 무결성에 영향을 준다.
- 탐색적 공격은 학습 세트를 변경하지 않고 모델 및 학습 데이터에 대한 정보를 노출한다.
- GAN 및 생성 프레임워크는 공격 도구로서와 방어 메커니즘으로 모두 사용된다.
- 방어책은 종종 특정 공격 클래스에 특화되며 모델 성능이나 효율성을 저하시키는 경우가 있다.
- 본 조사는 연구자와 실무자들을 돕기 위해 공격과 방어를 분류체계로 정리한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.