Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Defend by Learning to Attack

Haoming Jiang, Zhehui Chen|arXiv (Cornell University)|2018. 11. 03.
Adversarial Robustness in Machine Learning참고 문헌 47인용 수 30
한 줄 요약

이 논문은 신경망 최적화기를 사용해 적대적 예제를 생성하도록 훈련하는 새로운 학습-학습(L2L) 프레임워크를 제안한다. 이는 적대적 훈련 중에 강건성을 향상시킨다. 기울기 기반 최적화망을 통해 공격 과정을 엔드 투 엔드로 학습함으로써, CIFAR-10과 CIFAR-100에서 기존의 적대적 훈련 기준보다 최고 성능의 정확도와 효율성을 달성한다.

ABSTRACT

Adversarial training provides a principled approach for training robust neural networks. From an optimization perspective, adversarial training is essentially solving a bilevel optimization problem. The leader problem is trying to learn a robust classifier, while the follower problem is trying to generate adversarial samples. Unfortunately, such a bilevel problem is difficult to solve due to its highly complicated structure. This work proposes a new adversarial training method based on a generic learning-to-learn (L2L) framework. Specifically, instead of applying existing hand-designed algorithms for the inner problem, we learn an optimizer, which is parametrized as a convolutional neural network. At the same time, a robust classifier is learned to defense the adversarial attack generated by the learned optimizer. Experiments over CIFAR-10 and CIFAR-100 datasets demonstrate that L2L outperforms existing adversarial training methods in both classification accuracy and computational efficiency. Moreover, our L2L framework can be extended to generative adversarial imitation learning and stabilize the training.

연구 동기 및 목표

  • 적대적 훈련에서 이중 최적화 문제를 해결하는 데 도전하는 것. 이 문제는 계산적으로 복잡하고 최적화하기 어려운 편이다.
  • 강력하고 이식 가능한 적대적 편향을 생성하는 엔드 투 엔드 최적화기를 학습시켜 적대적 강건성을 향상시키는 것.
  • FGSM이나 PGD와 같은 수작업으로 설계된 공격 방법에 비해 훈련의 안정성과 효율성을 향상시키는 것.
  • 적대적 훈련과 생성적 적대적 유사 학습(GAIL)을 하나의 L2L 프레임워크로 통합하여 안정성을 향상시키는 것.

제안 방법

  • 내부 문제(적대적 공격 생성)를 신경망 최적화기로 해결하는 가역적이고 엔드 투 엔드인 L2L 프레임워크를 제안하며, 이 최적화기는 컨볼루션 네트워크로 파arameter화된다.
  • 공격자 네트워크는 입력 이미지와 그 기울기를 모두 입력으로 받아, 기울기 기반 최적화를 통해 효과적인 편향 패턴을 학습할 수 있다.
  • 강건한 분류기는 공격자 네트워크와 함께 이중 최적화 설정에서 함께 훈련되며, 리더는 후속자가 생성한 적대적 분포 하에서 테스트 손실을 최소화한다.
  • 두 시간 척도 업데이트 규칙과 같은 GAN 훈련 기법을 활용하여 엔드 투 엔드 L2L 시스템의 훈련을 안정화시킨다.
  • 동일한 L2L 공격자 네트워크를 사용해 GAIL로 확장함으로써, 정책 훈련의 안정성을 높인다.
  • 스킵 연결과 아키텍처 설계를 통해 기울기 정보를 유지하고 공격자 네트워크의 훈련 불안정성을 방지한다.

실험 결과

연구 질문

  • RQ1학습된 최적화기가 FGSM이나 PGD와 같은 수작업으로 설계된 적대적 공격 방법보다 강력한 적대적 예제를 생성하는 데서 슈퍼리어한 성능을 보일 수 있는가?
  • RQ2L2L 기반 공격자에 대한 엔드 투 엔드 훈련이 표준 벤치마크에서 신경망의 강건성과 정확도를 향상시키는가?
  • RQ3L2L 프레임워크가 표준 GAIL이 모드 붕괴와 성능 저하를 겪는 적대적 유사 학습 훈련에서 안정성을 향상시킬 수 있는가?
  • RQ4공격자 네트워크 입력에 기울기 정보를 통합하면 생성된 적대적 예제의 품질과 일반화 능력에 어떤 영향을 미치는가?

주요 결과

  • 제안된 L2L 프레임워크는 CIFAR-10과 CIFAR-100에서 기존의 적대적 훈련 방법보다 최고 성능의 테스트 정확도를 달성하며, FGSM 및 PGD 공격 모두에서 슈퍼리어한 성능을 보였다.
  • 이 방법은 뛰어난 계산 효율성을 보이며, 각 샘플에 대해 반복적인 공격 생성이 필요로 하는 것을 줄여 일반화 가능한 공격 정책을 학습함으로써 효율성을 향상시켰다.
  • GAIL 실험에서는 L2L 기반 접근이 훈련을 안정화시키고, 표준 GAIL에서 관찰되는 전문가 경로에 과적합되어 발생하는 갑작스러운 성능 저하를 방지했다.
  • 공격자 입력에 기울기 정보를 포함시키는 것이 훈련 안정성과 강건성에 크게 기여했으며, 이 구성 요소가 없는 단순하거나 단순한 공격자 버전의 실패로 이를 입증했다.
  • L2L 공격자는 샘플 간 공통적인 구조적 패턴을 학습하여 강력하고 이식 가능한 적대적 예제를 생성함으로써, 다양한 공격 유형으로도 잘 일반화되는 것을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.