Skip to main content
QUICK REVIEW

[논문 리뷰] Sufficient Conditions for Idealised Models to Have No Adversarial Examples: a Theoretical and Empirical Study with Bayesian Neural Networks

Yarin Gal, Lewis Smith|arXiv (Cornell University)|2018. 06. 02.
Adversarial Robustness in Machine Learning참고 문헌 11인용 수 26
한 줄 요약

이 논문은 두 가지 충분조건—정확한 지식적 불확실성과 적절한 밀도 추정—을 만족하는 이상화된 베이지안 신경망(BNN)은 입력 밀도에 관계없이 적대적 예제를 가질 수 없음을 증명한다. 인위적인 MNIST 유사 데이터에서 해밀토니안 몬테카를로(HMC) 추론을 사용하여 저자들은 높은 지식적 불확실성과 낮은 데이터 밀도 사이의 상관관계를 보이고, 적대적 예제가 데이터 다양체 외부에 위치함을 설명함으로써 MC 드롭아웃이 강력한 방어 수단이 되는 이유를 밝혀낸다.

ABSTRACT

We prove, under two sufficient conditions, that idealised models can have no adversarial examples. We discuss which idealised models satisfy our conditions, and show that idealised Bayesian neural networks (BNNs) satisfy these. We continue by studying near-idealised BNNs using HMC inference, demonstrating the theoretical ideas in practice. We experiment with HMC on synthetic data derived from MNIST for which we know the ground-truth image density, showing that near-perfect epistemic uncertainty correlates to density under image manifold, and that adversarial images lie off the manifold in our setting. This suggests why MC dropout, which can be seen as performing approximate inference, has been observed to be an effective defence against adversarial examples in practice; We highlight failure-cases of non-idealised BNNs relying on dropout, suggesting a new attack for dropout models and a new defence as well. Lastly, we demonstrate the defence on a cats-vs-dogs image classification task with a VGG13 variant.

연구 동기 및 목표

  • 이상화된 모델이 적대적 예제에 대해 증명 가능하게 강건해지는 데 필요한 충분조건를 규명하는 것.
  • MC 드롭아웃이 근사 추론임에도 불구하고 적대적 예제 탐지에서 경험적으로 성공한 이유를 조사하는 것.
  • 특히 '지식적 불확실성 추정의 불확실성 구멍' 문제를 드러내기 위해 드롭아웃 기반 추론을 사용하는 실용적 BNN의 한계를 폭 드러내는 것.
  • 이러한 불확실성 구멍을 겨냥하는 새로운 기울기 기반 공격을 제안하고, 앙상블 방법을 통한 완화 전략을 제시하는 것.
  • 실세계 이미지 분류 작업에서 이론적 결과를 검증하기 위해 VGG13 변종을 사용해 고양이-개 데이터에 적용하는 것.

제안 방법

  • 적대적 강건성에 대한 두 가지 충분조건을 정식화: (1) 정확한 지식적 불확실성, (2) 올바른 입력 밀도 추정.
  • 해밀토니안 몬테카를로(HMC) 추론을 사용한 베이지안 신경망(BNN)을 활용해 이상화된 정확한 사후 추론을 달성.
  • 불확실성과 밀도 상관관계를 테스트하기 위해 알려진 진짜 입력 밀도를 가진 MNIST에서 파생된 인위적 데이터셋을 구축.
  • 모델들 사이의 불확실성 추정에서 '구멍'을 탐지하기 위해 상호정보량(MI)을 지식적 불확실성의 척도로 사용.
  • 기울기 기반 공격이 아닌 모델의 신뢰도를 쿼리하고, 훈련 데이터에서 멀리 떨어진 점들 중에서 상호정보량이 낮은(즉, 낮은 불확실성 영역에서 높은 신뢰도를 가진) 점을 선택하는 기울기 기반 공격을 설계.
  • 랜덤 초기화된 드롭아웃 모델의 앙상블을 사용해 불확실성 구멍을 줄이는 완화 전략을 제안하고, Concrete 드롭아웃을 사용한 VGG13에서 검증함.

실험 결과

연구 질문

  • RQ1이상화된 모델이 적대적 예제가 전혀 없도록 보장받는 데 필요한 충분조건는 무엇인가?
  • RQ2BNN의 지식적 불확실성은 입력 다양체 내 데이터 밀도와 어떻게 상관관계가 있는가?
  • RQ3MC 드롭아웃은 추론이 근사적임에도 불구하고 왜 적대적 예제 탐지에 잘 작동하는가?
  • RQ4드롭아웃 기반 모델의 불확실성 구멍은 기울기 계산 없이도 적대적 예제 생성에 악용될 수 있는가?
  • RQ5단일 모델 드롭아웃 대비 실용적 BNN에서 앙상블 추론이 지식적 불확실성 캘리브레이션과 강건성에 어떻게 기여하는가?

주요 결과

  • 정확한 지식적 불확실성과 적절한 밀도 추정을 만족하는 이상화된 BNN은 적대적 예제를 가질 수 없다.
  • HMC로 추론한 BNN은 인위적 MNIST 데이터에서 높은 지식적 불확실성과 낮은 데이터 밀도 사이에 강한 상관관계를 보이며, 적대적 예제는 데이터 다양체 외부에 위치함을 확인함.
  • MC 드롭아웃 기반 모델은 '불확실성 구멍'—훈련 데이터에서 멀리 떨어진 영역에서 높은 신뢰도와 낮은 불확실성을 가지는 영역—을 보이며, 이는 기울기 기반 공격이 아닌 새로운 공격에 취약함을 드러냄.
  • 랜덤 초기화된 드롭아웃 모델의 앙상블은 불확실성 구멍을 크게 줄이며, 단일 모델 대비 강건성이 향상됨을 입증함. VGG13 고양이-개 작업에서 AUC는 0.63에서 0.77로 향상됨.
  • 새로운 기울기 기반 공격은 불확실성 구멍을 겨냥하여 '쓰레기' 이미지와 같은 적대적 예제를 성공적으로 생성하였으며, 통제된 환경에서 FGM보다 높은 성공률 기록.
  • 드롭아웃 앙상블은 결정론적 모델 앙상블보다 지식적 불확실성 캘리브레이션에서 뛰어나며, 추론 중의 확률적 성격이 강건성 향상에 기여함을 시사함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.