Skip to main content
QUICK REVIEW

[논문 리뷰] Adversarial examples for generative models

Jernej Kos, Ian Fischer|arXiv (Cornell University)|2017. 02. 22.
Adversarial Robustness in Machine Learning참고 문헌 19인용 수 32
한 줄 요약

이 논문은 변형된 잠복 표현을 통해 딥 생성 모델, 특히 변분 오토에인코더(VAEs)와 VAE-GANs에 대한 적대적 공격을 제안한다. 분류기 기반, VAE 손실 기반, 잠복공간 최적화의 세 가지 공격 방법을 제안하며, 적대적 예제가 재구성 결과를 왜곡하면서도 눈에 띄지 않게 유지할 수 있음을 입증한다. 특히 잠복공간 공격는 편향 크기와 공격 성공률 사이의 최적의 균형을 달성한다.

ABSTRACT

We explore methods of producing adversarial examples on deep generative models such as the variational autoencoder (VAE) and the VAE-GAN. Deep learning architectures are known to be vulnerable to adversarial examples, but previous work has focused on the application of adversarial examples to classification tasks. Deep generative models have recently become popular due to their ability to model input data distributions and generate realistic examples from those distributions. We present three classes of attacks on the VAE and VAE-GAN architectures and demonstrate them against networks trained on MNIST, SVHN and CelebA. Our first attack leverages classification-based adversaries by attaching a classifier to the trained encoder of the target generative model, which can then be used to indirectly manipulate the latent representation. Our second attack directly uses the VAE loss function to generate a target reconstruction image from the adversarial example. Our third attack moves beyond relying on classification or the standard loss for the gradient and directly optimizes against differences in source and target latent representations. We also motivate why an attacker might be interested in deploying such techniques against a target generative network.

연구 동기 및 목표

  • 딥 생성 모델, 예를 들어 VAEs와 VAE-GANs가 분류 작업 외의 분야로 확장된 적대적 예제에 취약한지 조사하는 것.
  • 인코딩 중에 잠복 표현을 조작함으로써 공격자가 생성 모델을 악용할 수 있는 실질적인 위협 모델을 규명하는 것.
  • 생성 모델에서 잘못된 재구성을 유도할 수 있는 새로운 공격 방법을 개발하고 평가하는 것.
  • 편향 크기, 재구성 정확도, 계산 비용 측면에서 다양한 공격 전략의 효과성과 효율성을 비교하는 것.

제안 방법

  • 학습된 VAE의 인코더에 부착된 분류기를 사용하여 분류 기반 공격를 통해 잠복 공간을 공격 표면으로 삼아 적대적 예제를 생성한다.
  • VAE 재구성 손실($\mathcal{L}_{\mathrm{VAE}}$)을 서로서의 목적함수로 활용하여 재구성 오차를 최대화하는 적대적 예제를 최적화한다.
  • 원본과 대상 잠복 코드 사이의 $L_2$ 거리를 최소화함으로써 잠복 표현을 직접 최적화함으로써 생성된 출력에 정밀한 제어를 가능하게 한다.
  • 기울기 기반 최적화를 적용하여 $L_2$ 및 RMSD 노름이 낮으면서도 재구성 결과에 상당한 이동을 유도하는 적대적 입력을 생성한다.
  • MNIST, SVHN, CelebA 데이터셋에 대해 $L_2$ 노름, RMSD, 재구성 결과의 시각적 검토 등 다양한 지표를 사용해 공격를 평가한다.
  • 1,000개의 적대적 예제를 생성하는 데 걸리는 시간을 측정하여 공격의 효율성을 평가하며, 정확도와 계산 비용 사이의 상충 관계를 부각한다.

실험 결과

연구 질문

  • RQ1VAEs와 VAE-GANs와 같은 딥 생성 모델에 대해 적대적 예제를 성공적으로 생성할 수 있는가?
  • RQ2눈에 띄는 편향을 증가시키지 않고도 생성 모델의 잠복 표현을 조작하는 데 가장 효과적인 공격 전략은 무엇인가?
  • RQ3분류기 기반, VAE-손실 기반, 잠복공간 최적화의 각 공격 방법은 편향 크기, 재구성 품질, 계산 효율성 측면에서 어떻게 비교되는가?
  • RQ4특히 별도의 인코딩 및 디코딩 당사자들이 존재하는 환경에서, 생성 모델에 대한 적대적 공격를 정당화할 수 있는 실질적인 위협 모델은 무엇인가?
  • RQ5적대적 예제는 얼마나 눈에 띄지 않게 유지되면서도 생성 모델의 재구성 실패를 상당히 유도할 수 있는가?

주요 결과

  • 잠복공간 공격는 평균 $L_2$ 노름(MNIST 기준 2.96, SVHN 기준 2.80)과 RMSD(MNIST 기준 0.105, SVHN 기준 0.051)가 가장 낮아 눈에 띄지 않으면서도 가장 효과적인 편향을 기록했다.
  • $\mathcal{L}_{\mathrm{VAE}}$ 공격는 가장 느렸으며, 각 최적화 단계에서 전체 재구성을 수행해야 하므로, SVHN에서 1,000개의 적대적 예제를 생성하는 데 평균 895초가 소요되었다.
  • CelebA 데이터셋에서 $\lambda = 0.75$를 사용한 $\mathcal{L}_{\mathrm{VAE}}$ 공격는 $L_2$ 노름 8.98과 RMSD 0.081을 기록했으며, 목표 얼굴의 고품질 재구성을 생성했다.
  • 분류기 기반 공격는 평균 $L_2$ 노름(MNIST 기준 3.36)이 가장 높아 가장 효과적이지 않으며, 더 크고 눈에 띄는 편향을 유도했다.
  • 모든 데이터셋에서 잠복공간 공격는 편향 크기를 최소화하면서 재구성 왜곡을 극대화하는 데 있어 분류기 및 $\mathcal{L}_{\mathrm{VAE}}$ 공격를 모두 압도했다.
  • SVHN에서 $L_2$ 최적화 잠복공간 공격는 평균 $L_2$ 노름 2.80과 RMSD 0.051을 기록했으며, 눈에 띄는 도전성 측면에서 $\mathcal{L}_{\mathrm{VAE}}$ 공격(2.36 및 0.043)을 크게 능가했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.