QUICK REVIEW

[논문 리뷰] Generalizable Adversarial Attacks Using Generative Models.

Avishek Joey Bose, Andre Cianflone|arXiv (Cornell University)|2019. 05. 26.

Adversarial Robustness in Machine Learning참고 문헌 16인용 수 5

한 줄 요약

이 논문은 생성 모델을 사용하여 적대적 편향의 분포를 학습하는 도메인에 관계없는 프레임워크를 제안한다. 이는 이미지, 텍스트, 그래프 전반에 걸쳐 다양한 일반화된 화이트박스 공격을 가능하게 한다. 그래프 도메인에서 최신 기준 성능을 달성하며, 미리 학습되지 않은 테스트 인스턴스로의 제로샷 공격 일반화를 보여준다.

ABSTRACT

Adversarial attacks on deep neural networks traditionally rely on a constrained optimization paradigm, where an optimization procedure is used to obtain a single adversarial perturbation for a given input example. In this work we frame the problem as learning a distribution of adversarial perturbations, enabling us to generate diverse adversarial distributions given an unperturbed input. We show that this framework is domain-agnostic in that the same framework can be employed to attack different input domains with minimal modification. Across three diverse domains---images, text, and graphs---our approach generates whitebox attacks with success rates that are competitive with or superior to existing approaches, with a new state-of-the-art achieved in the graph domain. Finally, we demonstrate that our framework can efficiently generate a diverse set of attacks for a single given input, and is even capable of attacking extit{unseen} test instances in a zero-shot manner, exhibiting attack generalization.

연구 동기 및 목표

기존의 공격 방식이 입력당 단 하나의 편향만 생성하는 한계를 해결하기 위해, 다양한 적대적 편향의 분포를 학습하는 것.
이미지, 텍스트, 그래프와 같은 다양한 입력 모odal을 공격하기 위해 최소한의 수정으로도 적용 가능한 도메인에 관계없는 프레임워크를 개발하는 것.
재학습 없이도 미리 보지 않은 테스트 인스턴스를 성공적으로 공격할 수 있도록 제로샷 공격 일반화를 가능하게 하는 것.
특히 그래프 도메인에서 기존 방법보다 공격 성공률과 다양성을 향상시키는 것.

제안 방법

생성 모델을 기반으로 한 조건부 생성 모델을 사용하여 적대적 공격 생성을 분포 학습 문제로 재정의하며, 생성자는 정제된 입력을 다양한 적대적 편향의 분포로 매핑하도록 학습한다.
목표 분류기의 예측을 오염시키는 편향을 유도하면서도 입력 도메인에 따라 눈에 띄지 않거나 의미적으로 타당한 편향을 유지하도록 손실 함수를 설계한다.
생성된 편향의 분포를 정규화하기 위해 잠재 공간 우선도(예: 정규분포)를 사용하여 동일한 입력에서 다양한 샘플링을 가능하게 한다.
이미지, 텍스트, 그래프 데이터에 적합한 생성자 및 판별기 아키텍처와 손실 구성 요소를 수정함으로써 다양한 도메인에 프레임워크를 적응시킨다.
재학습 없이도 기존에 보지 못한 입력에 대해 학습된 분포를 활용하여 편향을 샘플링함으로써 제로샷 공격 일반화를 구현한다.
다양한 테스트 인스턴스, 특히 훈련 중에 볼 수 없었던 인스턴스를 포함하여 공격 성공률를 평가하기 위해 블랙박스 평가 프로토콜을 사용한다.

실험 결과

연구 질문

RQ1최소한의 아키텍처 수정으로도 다양한 입력 도메인에서 다양한 적대적 편향을 생성할 수 있는 단일 생성 프레임워크를 사용할 수 있는가?
RQ2편향의 분포를 학습하는 것이 단일 편향 방법보다 더 높은 공격 성공률을 이끌어내는가?
RQ3프레임워크는 재학습 없이도 새로운 테스트 인스턴스를 제로샷 방식으로 일반화하여 공격할 수 있는가?
RQ4이 방법은 이미지, 텍스트, 그래프 전반에 걸쳐 최신 기준 공격 성공률와 다양성 측면에서 기존 최신 기술과 어떻게 비교되는가?

주요 결과

제안된 방법은 이미지, 텍스트, 그래프 전 영역에서 기존 접근 방식과 비교해도 경쟁력 있거나 더 높은 공격 성공률를 달성한다.
이 프레임워크는 그래프 도메인에서 새로운 최신 기준 공격 성공률를 설정하며, 이전 방법들을 능가한다.
단일 입력에 대해 다양한 적대적 편향을 생성하여, 다양한 공격 경로 탐색 능력을 입증한다.
효과적인 제로샷 공격 일반화를 가능하게 하여, 재학습 없이도 이전에 보지 못한 테스트 인스턴스를 성공적으로 공격한다.
도메인에 관계없는 접근 방식으로, 이미지, 텍스트, 그래프와 같은 다양한 입력 유형에 적응하기 위해 최소한의 수정만 필요하다.
생성 모델의 형태 덕분에 입력당 다수의 적대적 예제를 효율적으로 샘플링할 수 있어 공격의 다양성과 강건성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.