QUICK REVIEW

[논문 리뷰] On the Minimal Adversarial Perturbation for Deep Neural Networks With Provable Estimation Error

Fabio Brau, Giulio Rossolini|arXiv (Cornell University)|2022. 01. 01.

Adversarial Robustness in Machine Learning참고 문헌 38인용 수 10

한 줄 요약

이 논문은 딥 네ural 네트워크에서 최소 적으로 악성 변형을 근사하기 위한 두 가지 경량의 근 찾기 전략을 제안하며, 계산된 거리와 진정한 최소 거리 사이의 증명 가능한 오차 추정 이론을 제공한다. 이 방법은 반경 σ 내의 오차를 제한함으로써 강건성 검증을 가능하게 하며, 결정 경계에 가까운 입력에 대해 공격이 그 추정 경계 이하로 성공하지 못한다는 실험 결과로 검증된다.

ABSTRACT

Although Deep Neural Networks (DNNs) have shown incredible performance in perceptive and control tasks, several trustworthy issues are still open. One of the most discussed topics is the existence of adversarial perturbations, which has opened an interesting research line on provable techniques capable of quantifying the robustness of a given input. In this regard, the Euclidean distance of the input from the classification boundary denotes a well-proved robustness assessment as the minimal affordable adversarial perturbation. Unfortunately, computing such a distance is highly complex due the non-convex nature of DNNs. Despite several methods have been proposed to address this issue, to the best of our knowledge, no provable results have been presented to estimate and bound the error committed. This paper addresses this issue by proposing two lightweight strategies to find the minimal adversarial perturbation. Differently from the state-of-the-art, the proposed approach allows formulating an error estimation theory of the approximate distance with respect to the theoretical one. Finally, a substantial set of experiments is reported to evaluate the performance of the algorithms and support the theoretical findings. The obtained results show that the proposed strategies approximate the theoretical distance for samples close to the classification boundary, leading to provable robustness guarantees against any adversarial attacks.

연구 동기 및 목표

딥 네럴 네트워크에서 최소 적으로 악성 변형을 추정하는 기존 방법들에 대한 이론적 오차 경계가 부족한 문제를 해결하기 위해.
계산적으로 효율적인 최소 적으로 악성 변형 거리의 근사치를 개발하여 증명 가능한 강건성 보장을 지원하기 위해.
근사 거리 t(x,l)와 진정한 최소 거리 d(x,l) 사이의 차이를 정량화하는 분석적 오차 추정 이론을 유도하기 위해.
오차 경계가 유지되는 이웃 영역의 반경 σ를 경험적으로 추정하여, 결정 경계 근처의 입력에 대해 ϵ-강건성 검증이 가능하도록 하기 위해.

제안 방법

분류 경계까지의 거리를 구하기 위해 근을 찾는 두 가지 전략—가장 가까운 경계(CB) 및 이분법(BM)—을 제안하여 최소 적으로 악성 변형을 근사한다.
분류기의 1차 및 2차 도함수를 기반으로 한 새로운 정규성 계수를 도입하여 결정 경계의 선형성을 측정하고, 이웃 영역 반경 σ를 정의한다.
반경 σ의 원통형 영역 내에서 근사 거리 t(x,l)와 진정한 최소 거리 d(x,l) 사이의 이론적 오차 경계를 유도한다.
네 가지 데이터셋(MNIST, FMNIST, CIFAR10, GTSRB)에서 근사 거리를 검증하기 위해 글로벌 서치 방법(내부점 기법)을 기준값으로 사용한다.
PGD, FGM, DF, DDN 등의 공격을 사용하여, t(x)/ρ∗ 이하의 크기의 공격이 성공하지 못하는 최대 거리 σ∗를 경험적으로 추정한다.
오차 경계로 t(x)/ρ∗를 하한으로 적용하여, 추정된 σ∗ 이내의 영역에서 어떤 공격도 그 이하 크기로 성공하지 못함을 검증한다.

실험 결과

연구 질문

RQ1딥 네럴 네트워크에서 근사된 최소 적으로 악성 변형 계산에 대해 이론적 오차 경계를 제공할 수 있는가?
RQ2근사 거리와 진정한 최소 거리 간의 오차가 증명 가능하게 유한한 결정 경계 주변의 이웃 영역 크기는 얼마인가?
RQ3오차가 유한하게 유지되는 정도를 고려할 때, 반경 σ를 얼마나 정확하게 추정할 수 있는가?
RQ4제안된 방법을 사용하여 근사 거리와 증명 가능한 오차 경계만으로 결정 경계 근처의 입력에 대해 ϵ-강건성을 검증할 수 있는가?

주요 결과

제안된 CB 및 이분법 방법은 진정한 최소 적으로 악성 변형 거리를 증명 가능한 오차 경계와 함께 근사하며, 결정 경계에 가까운 입력에 대해 특히 효과적이다.
이론적 오차 경계는 분류기의 정규성 계수(1차 및 2차 도함수 기반)에 의해 결정되는 반경 σ의 원통형 영역 내에서 성립한다.
경험적 추정된 σ∗는 검증되었으며, MNIST 및 GTSRB에서는 σ∗ 이내의 입력에서 t(x)/ρ∗ 이하의 공격이 성공하지 못함을 확인하여 이론적 경계가 성립함을 입증하였다.
FMNIST 및 CIFAR10에서는 σ∗ 추정이 덜 정확했으며, 각각 하나의 샘플에서 공격이 경계 이하에서 성공함을 확인하여 경험적 σ∗ 추정의 일반화에 한계가 있음을 시사하였다.
이 방법은 효율적인 ϵ-강건성 검증을 가능하게 하며, t(x)/ρ∗를 하한으로 사용할 경우 어떤 공격도 그 이하 크기로 성공하지 못함을 보장하여 증명 가능한 강건성 보장을 제공한다.
결과적으로 제안된 방법은 추정된 t(x)/ρ∗로 제한된 모든 공격에 대해 증명 가능한 강건성을 지원하며, 특히 입력이 추정된 σ∗ 이내에 있을 경우에 특히 효과적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.