Skip to main content
QUICK REVIEW

[논문 리뷰] Biologically inspired protection of deep networks from adversarial attacks

Aran Nayebi, Surya Ganguli|arXiv (Cornell University)|2017. 03. 27.
Adversarial Robustness in Machine Learning참고 문헌 19인용 수 98
한 줄 요약

논문은 네트워크를 비선형 포화 regime으로 밀어 넣어 그래디언트 기반의 적대적 공격에 본질적으로 저항하는 생물학적으로 영감된 학습 스키마를 제시하며, adversarial training 없이 MNIST에서 최첨단 로버스트성을 달성합니다.

ABSTRACT

Inspired by biophysical principles underlying nonlinear dendritic computation in neural circuits, we develop a scheme to train deep neural networks to make them robust to adversarial attacks. Our scheme generates highly nonlinear, saturated neural networks that achieve state of the art performance on gradient based adversarial examples on MNIST, despite never being exposed to adversarially chosen examples during training. Moreover, these networks exhibit unprecedented robustness to targeted, iterative schemes for generating adversarial examples, including second-order methods. We further identify principles governing how these networks achieve their robustness, drawing on methods from information geometry. We find these networks progressively create highly flat and compressed internal representations that are sensitive to very few input dimensions, while still solving the task. Moreover, they employ highly kurtotic weight distributions, also found in the brain, and we demonstrate how such kurtosis can protect even linear classifiers from adversarial attack.

연구 동기 및 목표

  • 비선형 수지상돌기 계산에 의해 영감을 받은 강건한 적대적 방어책 동기 부여.
  • 네트워크를 포화 regime으로 유도하는 실용적 학습 스키마 개발.
  • 포화가 내부 표현과 기하학에 미치는 영향을 분석하여 로버스트성 부여.
  • 로버스트성과 연관된 가중치 분포 특성(높은 커토시스)을 식별하고 단순 분류기의 선형적 메커니즘 포함

제안 방법

  • 활성화가 비선형 함수의 포화 영역에서 작동하도록 장려하는 포화 페널티 설계.
  • 학습 중 모든 계층(리드아웃 포함)에 걸쳐 어닐링된 페널티를 표준 최적화(Adam)와 함께 적용.
  • 선형 영역을 억제하기 위해 포화 정규화와 함께 교차 엔트로피 기반 목적 함수 사용.
  • 그라디언트 기반 적대자(빠른 그래디언트 부호 방법) 및 반복적인 2차 방법에 대한 로버스트니스 평가.
  • MNIST에서 시그모이드 MLP, ReLU MLP, CNN 아키텍처 간 바닐라, 적대적 학습된, 포화 네트워크 비교

실험 결과

연구 질문

  • RQ1생물학적으로 영감된 포화 regime이 adversarial training 없이도 딥 네트워크의 내재적 강건성을 향상시킬 수 있는가?
  • RQ2포화 네트워크에서 나타나는 내부 표현과 기하학적 속성이 로버스트성의 기원으로 작용하는가?
  • RQ3뇌 네트워크와 유사한 가중치 커토시스 분포가 적대적 보호에 기여하는가?
  • RQ4포화 네트워크는 반복적 및 2차적 적대자에 대해 표준 방어보다 얼마나 잘 버티는가?
  • RQ5포화 네트워크의 강건성이 다양한 아키텍처(MLP 변형 및 CNN)에 걸쳐 전달 가능한가?

주요 결과

훈련시그모이드 MLP (시험 정확도, 적대적 정확도)ReLU MLP (시험 정확도, 적대적 정확도)CNN (시험 정확도, 적대적 정확도)
바닐라97.6% 0%98.1% 0.41%99.35% 5.62%
적대적92.27% 81.71%92.29% 91.04%99.32% 83.83%
포화97.01% 94.43%95.24% 94.59%99.33% 98.45%
  • 포화 네트워크는 그라디언트 기반 MNIST 적대적 예제에서 깨끗한 테스트 정확도 손실 없이 2-7%의 오차를 달성합니다.
  • 포화 네트워크는 MNIST 설정의 적대적 예제에서 적대적 학습된 counterparts보다 성능이 우수합니다.
  • 포화 네트워크의 가중치는 더 높은 과도 커토시스를 보여주며, 이는 로버스트성과 관련된 뇌와 유사한 특성입니다.
  • 내부 표현은 클래스별로 높은 군집화와 계층 간에 점차 구분되며 입력-출력 매핑은 평탄합니다.
  • 정보 기하학적 분석은 포화 네트워크가 입력-출력 함수가 평탄하고 차원이 낮으며 특이값 패턴이 민감도 방향의 제약을 나타냄을 보여줍니다.
  • 가중치 커토시스는 선형 분류기에서도 독립적으로 로버스트성을 부여할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.