QUICK REVIEW

[논문 리뷰] Generative Adversarial Trainer: Defense to Adversarial Perturbations with GAN

Hyeungill Lee, Sungyeob Han|arXiv (Cornell University)|2017. 05. 09.

Adversarial Robustness in Machine Learning참고 문헌 17인용 수 87

한 줄 요약

논문은 Generative Adversarial Trainer (GAT)을 소개합니다. 이는 perturbation generator와 classifier를 번갈아 학습시키는 GAN 기반 프레임워크로, 적대적 예제에 대한 강건성을 향상시키고 감독 학습에 대한 강력한 일반화 정규화 도구로 작용합니다.

ABSTRACT

We propose a novel technique to make neural network robust to adversarial examples using a generative adversarial network. We alternately train both classifier and generator networks. The generator network generates an adversarial perturbation that can easily fool the classifier network by using a gradient of each image. Simultaneously, the classifier network is trained to classify correctly both original and adversarial images generated by the generator. These procedures help the classifier network to become more robust to adversarial perturbations. Furthermore, our adversarial training framework efficiently reduces overfitting and outperforms other regularization methods such as Dropout. We applied our method to supervised learning for CIFAR datasets, and experimantal results show that our method significantly lowers the generalization error of the network. To the best of our knowledge, this is the first method which uses GAN to improve supervised learning.

연구 동기 및 목표

전통적 방법을 넘어 적대적 예제에 대한 강건한 분류를 동기 부여한다.
생성기가 분류기를 속이도록 섭동을 학습하는 GAN 기반 적대적 학습 프레임워크를 제안한다.
표준 적대적 학습 및 드롭아웃과 비교하여 향상된 강건성 및 정규화를 입증한다.
GAT가 CIFAR-10 및 CIFAR-100 데이터셋에서 일반화 오차를 감소시킨다.

제안 방법

F(x; θ_f) 분류기와 x에 대한 섭동을 출력하는 G(Δ; θ_g) 생성기를 도입한다.
생성기 손실 L_G(Δ,y) = F(x + G(Δ))_y + c_g * ||G(Δ)||_2^2 를 정의하여 적대적 섭동을 설계한다.
분류기 적대적 목적 L_F = α J(θ_f, x, y) + (1−α) J(θ_f, x + G(Δ), y) 이고 실험에서 α = 0.5이다.
교대 학습: 먼저 섭동 능력을 최대화하도록 G를 업데이트하고 섭동 파워를 제어한 뒤 원래 이미지 및 섭동된 이미지를 모두 올바르게 분류하도록 F를 업데이트한다.
Adam 옵티마이저를 사용하고 교대 업데이트를 시행한다(k = 1 generator step per classifier step).
CIFAR-10/100에 작은 All-CNN 유사 분류기와 섭동에 대해 6-layer G를 적용(배치 정규화/드롭아웃 없음).

실험 결과

연구 질문

RQ1고정된 섭동 예산 하에서 Fast Gradient 방법보다 강한 적대적 예제를 생성하는 GAN 기반 섭동 생성기가 가능할까?
RQ2생성기를 활용한 적대적 학습이 기존 FG 기반 적대적 학습 및 드롭아웃을 넘어 분류기의 강건성 및 일반화를 향상시킬까?
RQ3GAT 프레임워크가 서로 다른 네트워크 아키텍처와 데이터셋 전반에 걸친 정규화 도구로 적용 가능할까?
RQ4적응적이고 데이터 의존적인 섭동이 학습 역학 및 정규화 효과에 미치는 영향은 무엇인가?

주요 결과

GAT는 저섭동 파워에서 Fast Gradient 방법보다 더 강한 적대적 섭동을 생성할 수 있다.
GAT를 이용한 적대적 학습은 CIFAR-10/100에서 기준선, Dropout, 임의 섭동, FG 기반 적대적 학습보다 높은 테스트 정확도를 보인다.
GAT는 상당한 정규화 이점을 제공하여 CIFAR-10을 기준선 77.48%에서 80.33%로, CIFAR-100을 44.32%에서 50.44%로 개선한다.
Dropout과 GAT의 결합은 성능을 더욱 향상시켜 CIFAR-10에서 81.62%, CIFAR-100에서 50.71%를 달성한다.
GAT의 강건성은 직접적 및 간접적 적대적 공격에 대해 분명하며, 다양한 ε 설정에서 FG 기반 방법을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.