[논문 리뷰] Defending against Adversarial Images using Basis Functions Transformations
이 논문은 기저 함수 조작에 기반한 여러 테스트 시 방어를 블랙, 그레이, 화이트박스 적대적 공격에 대해 평가하고, Filtered Gradient Attack라는 새로운 화이트박스 공격을 도입합니다.
We study the effectiveness of various approaches that defend against adversarial attacks on deep networks via manipulations based on basis function representations of images. Specifically, we experiment with low-pass filtering, PCA, JPEG compression, low resolution wavelet approximation, and soft-thresholding. We evaluate these defense techniques using three types of popular attacks in black, gray and white-box settings. Our results show JPEG compression tends to outperform the other tested defenses in most of the settings considered, in addition to soft-thresholding, which performs well in specific cases, and yields a more mild decrease in accuracy on benign examples. In addition, we also mathematically derive a novel white-box attack in which the adversarial perturbation is composed only of terms corresponding a to pre-determined subset of the basis functions, of which a "low frequency attack" is a special case.
연구 동기 및 목표
- 적대적 교란을 완화하기 위해 기저 함수 공간에서 작동하는 방어 전략의 필요성을 제기하고 평가합니다.
- 블랙박스, 그레이박스, 화이트박스 위협 모델에서 여러 전처리 방어의 성능을 비교합니다.
- 악의가 없는 이미지에서의 정확도를 보존하면서 적대적 성공률을 낮추는 방어를 식별합니다.
- 일부 기저 함수만을 대상으로 하는 새로운 화이트박스 공격(Filtered Gradient Attack)을 제공합니다.
제안 방법
- 각 방어를 악의 없는 이미지와 적대적 이미지에 대한 테스트 시 전처리 단계로 적용합니다.
- FGSM, I-FGSM, 및 C&W 공격 하에서 방어를 평가합니다.
- 저역통과 푸리에 필터링, PCA(이미지 단위 및 패치 단위), 웨이블릿 근사, 소프트 임계값 설정, 및 JPEG 압축을 사용합니다.
- Filtered Gradient Attack (FGA)을 제안하고 형식화하며, 화이트박스 설정에서 Backward Pass Differentiable Approximation (BPDA)을 논의합니다.
실험 결과
연구 질문
- RQ1기저 함수 기반 전처리 방어 중 어느 것이 블랙박스, 그레이박스, 화이트박스 설정에서 적대적 교란을 가장 효과적으로 완화합니까?
- RQ2이러한 방어들은 악의적 예제에 대한 강건성과 악의 없는 이미지의 정확도 간에 어떤 트레이드오프를 보입니까?
- RQ3미리 정해진 기저 함수 부분집합으로 교란을 제한하는 새로운 화이트박스 공격의 영향은 무엇입니까?
- RQ4JPEG 압축이 위협 모델 전반에서 다른 기저 기반 방어보다 일관되게 더 우수합니까?
주요 결과
- JPEG 압축은 일반적으로 블랙박스 및 그레이박스 설정과 분석된 두 가지 화이트박스 스킴에서 다른 방어보다 더 우수합니다.
- 소프트 임계값 설정은 특정 경우에 강력한 방어를 제공하고 악성 이미지에서의 정확도 손실은 더 작습니다.
- 웨이블릿 기반 방법(레벨-1 근사 및 소프트 임계값 설정)은 일부 대안보다 양성 이미지에 대한 정확도 저하가 작습니다.
- 저역통과 필터링 및 PCA 기반 노이즈 제거와 같은 다른 방법은 적대적 공격에 대해 효과가 약하거나 혼합적입니다.
- 새로운 화이트박스 공격인 Filtered Gradient Attack은 보존된 기저 함수만을 대상으로 하여 저주파 또는 선택된 다른 부분집합에 맞추어진 공격을 가능하게 합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.