QUICK REVIEW

[논문 리뷰] Adversarial Distillation of Bayesian Neural Network Posteriors

Kuan-Chieh Wang, Paul Vicol|arXiv (Cornell University)|2018. 06. 27.

Adversarial Robustness in Machine Learning참고 문헌 36인용 수 25

한 줄 요약

이 논문은 베이지안 신경망(BNNs)에서 확률적 경량 랭비안 동역학(SGLD)의 사후 표본을 휘발성으로 추출하기 위해 생성적 적대적 네트워크(GAN)를 사용하는 적대적 사후 휘발성(APD)을 소개한다. GAN 생성기는 고품질의 사후 표본을 학습하여, 메모리 사용량을 최소화하면서도 이상 탐지, 능동 학습, 적대적 방어와 같은 불확실성 민감한 작업에서 성능을 유지하는 효율적인 테스트 시기 추론을 가능하게 한다.

ABSTRACT

Bayesian neural networks (BNNs) allow us to reason about uncertainty in a principled way. Stochastic Gradient Langevin Dynamics (SGLD) enables efficient BNN learning by drawing samples from the BNN posterior using mini-batches. However, SGLD and its extensions require storage of many copies of the model parameters, a potentially prohibitive cost, especially for large neural networks. We propose a framework, Adversarial Posterior Distillation, to distill the SGLD samples using a Generative Adversarial Network (GAN). At test-time, samples are generated by the GAN. We show that this distillation framework incurs no loss in performance on recent BNN applications including anomaly detection, active learning, and defense against adversarial attacks. By construction, our framework not only distills the Bayesian predictive distribution, but the posterior itself. This allows one to compute quantities such as the approximate model variance, which is useful in downstream tasks. To our knowledge, these are the first results applying MCMC-based BNNs to the aforementioned downstream applications.

연구 동기 및 목표

대규모 모델에 대해 확률적 경량 랭비안 동역학(SGLD)의 다수 표본 유지를 위한 높은 저장 비용 문제를 해결하기 위해.
불확실성 추정 품질을 훼손하지 않으면서도 테스트 시기의 효율적이고 파rameterized 사후 근사화를 가능하게 하기 위해.
특히 SGLD와 같은 MCMC 기반 BNN이 MC 드롭아웃과 같은 단순한 방법보다 불확실성 민감한 응용 분야에서 뛰어난 성능을 낼 수 있음을 입증하기 위해.
GAN 기반 휘발성이 모델 분산을 포함한 전체 사후 구조를 유지할 수 있음을 보여주어 후행 작업에 필수적인 요소를 확보하기 위해.
불확실성 정량 분석이 필수적인 실세계 응용 분야에서 MCMC 기반 BNN을 실용적으로 구현할 수 있는 프레임워크를 구축하기 위해.

제안 방법

모델 파라미터의 진정한 사후 분포를 나타내기 위해 확률적 경량 랭비안 동역학(SGLD)을 사용하여 사후 표본 집합을 생성한다.
생성기(generator)가 SGLD 사후 표본의 분포를 모방하도록 생성적 적대적 네트워크(GAN)를 훈련시킨다.
판별기(discriminator)는 실제 SGLD 표본과 생성된 표본을 구분하며, 생성기는 판별기를 속이도록 최적화된다.
훈련 안정성과 표본 품질 향상을 위해 기울기 페널티를 적용한 WGAN-GP를 사용하여 훈련을 안정화시킨다.
테스트 시기에는 SGLD 표본을 저장하는 대신 훈련된 GAN 생성기에서 표본을 생성함으로써 메모리 사용량을 극적으로 감소시킨다.
휘발된 GAN 표본을 사용하여 엔트로피와 BALD와 같은 불확실성 측정치를 계산함으로써 이상 탐지 및 능동 학습과 같은 후행 작업을 가능하게 한다.

실험 결과

연구 질문

RQ1SGLD를 통해 확보한 BNN의 사후 분포를 GAN이 효과적으로 휘발성 처리할 수 있으며, 그 불확실성 특성을 유지할 수 있는가?
RQ2GAN 기반 휘발성 처리를 통해 확보된 사후 분포가 이상 탐지 및 적대적 방어와 같은 불확실성 민감한 작업에서 SGLD 표본과 유사한 성능을 낼 수 있는가?
RQ3저장 비용 효율성과 정확도 측면에서 단순한 근사 방법인 가우시안 혼합모형(MoG)과 비교했을 때 GAN 기반 휘발성 처리의 성능는 어떠한가?
RQ4SGLD 표본을 저장하는 것에 비해 저장 비용을 줄이면서도 고품질의 불확실성 추정을 유지할 수 있는가?
RQ5원래 GAN, WGAN, WGAN-GP와 같은 다양한 훈련 형식 중에서 BNN의 사후 휘발성 처리에 가장 안정적이고 효과적인 것은 무엇인가?

주요 결과

APD는 notMNIST OOD 이상 탐지 작업에서 SGLD 표본의 99.8% 성능을 유지하며, 파rameter 수가 훨씬 적은 1.67M(비교: 9.54M)인 60성분 MoG(99.3%)를 능가한다.
APD의 성능은 생성된 표본 수가 많아질수록 향상되며, 20개의 생성 표본으로서 50개의 SGLD 표본 수준의 성능에 도달하여 저장 비용을 2.5배 감소시킨다.
기울기 페널티를 적용한 WGAN-GP가 원래 GAN이나 가중치 클리핑을 사용한 WGAN보다 더 빠르게 수렴하고 훈련 진동이 적어 더 안정적인 사후 휘발성 처리를 가능하게 한다.
단일 성분 가우시안 혼합모형(MoG)은 이상 탐지에서 성능이 열악하여 SGLD 사후 분포가 다중모드이며 단순한 분해 가능 근사로는 표현할 수 없음을 시사한다.
APD는 테스트 시기의 전체 사후 분포 접근을 가능하게 하여 모델 분산 및 기타 불확실성 지표 계산이 가능하게 하며, 이는 능동 학습과 적대적 강인성에 필수적이다.
이 프레임워크는 이전에 저장 비용으로 인해 회피되었던 MCMC 기반 BNN이 적대적 휘발성을 통해 실용적으로 구현 가능하며, 핵심 응용 분야에서 MC 드롭아웃과 같은 단순한 방법보다 뛰어난 성능을 낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.