QUICK REVIEW

[논문 리뷰] DeepSafe: A Data-driven Approach for Checking Adversarial Robustness in Neural Networks

Divya Gopinath, Guy Katz|arXiv (Cornell University)|2017. 10. 02.

Adversarial Robustness in Machine Learning참고 문헌 18인용 수 58

한 줄 요약

DeepSafe는 레이블 안내 클러스터링을 통해 입력 공간을 안전 영역으로 분할하고 형식적 검증(Relupex)을 사용해 강건성을 증명하거나 적대적 예를 노출하는 데이터 가이드 방식의 방법으로, 특정 타깃 강건성 보장을 포함합니다.

ABSTRACT

Deep neural networks have become widely used, obtaining remarkable results in domains such as computer vision, speech recognition, natural language processing, audio recognition, social network filtering, machine translation, and bio-informatics, where they have produced results comparable to human experts. However, these networks can be easily fooled by adversarial perturbations: minimal changes to correctly-classified inputs, that cause the network to mis-classify them. This phenomenon represents a concern for both safety and security, but it is currently unclear how to measure a network's robustness against such perturbations. Existing techniques are limited to checking robustness around a few individual input points, providing only very limited guarantees. We propose a novel approach for automatically identifying safe regions of the input space, within which the network is robust against adversarial perturbations. The approach is data-guided, relying on clustering to identify well-defined geometric regions as candidate safe regions. We then utilize verification techniques to confirm that these regions are safe or to provide counter-examples showing that they are not safe. We also introduce the notion of targeted robustness which, for a given target label and region, ensures that a NN does not map any input in the region to the target label. We evaluated our technique on the MNIST dataset and on a neural network implementation of a controller for the next-generation Airborne Collision Avoidance System for unmanned aircraft (ACAS Xu). For these networks, our approach identified multiple regions which were completely safe as well as some which were only safe for specific labels. It also discovered several adversarial perturbations of interest.

연구 동기 및 목표

신경망에 대한 점-대 점 adversarial 체크를 넘어 강건한 평가를 촉진하고 입력 영역에 대해 강건성을 인증하는 것을 목표로 한다.
일관된 레이블링으로 잘 정의된 안전 영역을 얻을 수 있는 데이터 가이드 클러스터링 접근법을 개발한다.
각 영역 내에서 형식적 검증을 제공하여 강건성을 보장하거나 반례를 제시한다.
영역 내에서 특정 대상 레이블로의 잘못 분류에 대한 보호를 보장하기 위해 대상 강건성을 도입한다.
안전에 민감한 ACAS Xu 네트워크와 MNIST 분류기에 대한 확장성과 적용 가능성을 입증한다.

제안 방법

레이블 안내 클러스터링을 도입하여 kMeans를 확장하고 혼합 레이블 클러스터를 재귀적으로 분할하여 밀집된 클러스터를 생성하고 일관된 라벨을 얻는다.
클러스터를 반경 내 모든 입력이 동일한 실제 라벨을 가지는 경우 안전 영역으로 정의하고, 일관성의 가능성을 높이기 위해 반경을 중심점까지의 평균 거리로 축소한다.
강건성 검사를 클러스터의 후보 타깃 레이블 l'에 대해 클러스터의 가설( Eq. 2)의 부정으로 검증하여( Eq. 2) 각 타깃 특화 강건성을 인증하거나 적대적 예를 생성한다.
Reluplex를 사용하여 각 잠재 타깃 레이블 l'에 대해 클러스터의 가설( Eq. 2)의 부정을 검증하여 타깃 강건성을 인증하거나 적대적 예를 생성한다.
Verification 노력을 최적화하기 위해 중심점 점수에 따라 타깃 레이블의 우선순위를 매기고, 소형 클러스터 내에서 검증을 수행하여 계산 가능성을 개선하고 병렬화를 가능하게 한다.
거리 측정은 클러스터링에 L2를, Reluplex 검증에는 L1을 상한으로 사용하여 발견된 섭 perturbations의 타당성을 보존하고, 경계 축소 및 클러스터 수준 포괄으로 확장을 개선한다.

실험 결과

연구 질문

RQ1레이블 안내 클러스터링이 강건성 검증에 적합한 작고 밀집된 단일 라벨 영역을 생성할 수 있는가?
RQ2이 영역들 내의 검증이 특정 오분류에 대한 대상 강건성을 포함한 형식적 강건성 보장을 제공하는가?
RQ3포인트별 적대적 탐색에 비해 클러스터 기반 강건성 검증은 얼마나 확장 가능한가?
RQ4안전에 민감한 네트워크(예: ACAS Xu)와 일반 데이터셋(MNIST)에서 어떤 종류의 적대적 섭 perturbations와 안전 영역이 나타나는가?

주요 결과

방법은 ACAS Xu에서 여러 개의 완전히 안전한 영역과 특정 레이블에 대해 안전한 영역을 다수 식별했다.
일부 클러스터는 특정 대상 레이블에 대해서만 안전하여 지역적 강건성의 뉘앙스를 나타냈다.
관계Perturbations를 발견하고 더 많은 학습 데이터가 필요한 영역을 강조했다.
ACAS Xu 실험에서 125개의 안전한 클러스터, 52개의 대상 안전 클러스터, 분석된 210개의 클러스터 중 33개가 타임아웃으로 나타났다(표 1).
추가 클러스터 세부 사항은 다양한 슬라이스와 반경에서 안전, 대상 안전, 또는 안전하지 않은 것으로 표시된 여러 클러스터를 보여주었다(표 2).
이 기술은 지역적 증명 의무로 강건성을 분해하고 클러스터의 병렬 검증을 가능하게 하여 확장성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.