QUICK REVIEW

[논문 리뷰] Verifying Neural Networks with Mixed Integer Programming

Vincent Tjeng, Russ Tedrake|arXiv (Cornell University)|2017. 11. 20.

Adversarial Robustness in Machine Learning참고 문헌 35인용 수 105

한 줄 요약

이 논문은 ReLU 및 maxpool 레이어를 갖는 조각별 애프린이 신경망과 같은 조각별 애프린이 신경망의 강건성에 대해 혼합정수계획법(MIP)을 사용하여 검증하는 방법을 제안한다. 이는 적대적 예제에 대해 증명 가능한 보장을 가능하게 한다. 이 논문은 MIP 기반 검증이 이전 방법보다 최대 10배 빠르며, 블러링과 같은 자연스러운 변형에 강건한 입력을 식별함으로써 모든 블러 변형에 대해 증명 가능한 면역성을 갖는 일부 이미지도 발견한다.

ABSTRACT

Neural networks have demonstrated considerable success in a wide variety of real-world problems. However, the presence of adversarial examples - slightly perturbed inputs that are misclassified with high confidence - limits our ability to guarantee performance for these networks in safety-critical applications. We demonstrate that, for networks that are piecewise affine (for example, deep networks with ReLU and maxpool units), proving no adversarial example exists - or finding the closest example if one does exist - can be naturally formulated as solving a mixed integer program. Solves for a fully-connected MNIST classifier with three hidden layers can be completed an order of magnitude faster than those of the best existing approach. To address the concern that adversarial examples are irrelevant because pixel-wise attacks are unlikely to happen in natural images, we search for adversaries over a natural class of perturbations written as convolutions with an adversarial blurring kernel. When searching over blurred images, we find that as opposed to pixelwise attacks, some misclassifications are impossible. Even more interestingly, a small fraction of input images are provably robust to blurs: every blurred version of the input is classified with the same, correct label.

연구 동기 및 목표

안전이 중요한 애플리케이션에서 적대적 예제에 대한 강건성 검증 문제를 해결하기 위해.
주어진 네트워크와 입력에 대해 어떤 적대적 예제도 존재하는지 증명적으로 판단할 수 있는 방법을 개발하기 위해.
픽셀 단위의 변형을 넘어서 더 자연스러운 이미지 왜곡, 예를 들어 블러링과 같은 변형으로의 검증을 확장하기 위해.
소수의 픽셀 단위의 변화가 아니라 전체 자연스러운 변형 클래스에 대해 증명적으로 강건한 입력을 식별하기 위해.

제안 방법

ReLU 및 maxpool 네트워크의 강건성 검증 문제를 혼합정수계획법(MIP)으로 공식화한다.
MIP를 사용하여 주어진 변형 반경 내에 적대적 예제가 존재하지 않음을 증명하거나 가장 가까운 그러한 예제를 찾는다.
세 개의 은닉층을 갖는 완전연결 MNIST 분류기에서 MIP를 적용하여 이전 접근 방식보다 훨씬 빠른 해법 시간을 달성한다.
픽셀 단위의 변형을 넘어서, 적대적 블러링 커널을 사용한 컨볼루션을 포함한 적대적 예제 탐색을 확장한다.
MIP를 사용하여 전체 블러된 입력 공간에서의 강건성을 검증하고, 모든 이러한 변형에서도 올바른 분류를 유지하는 입력을 식별한다.

실험 결과

연구 질문

RQ1혼합정수계획법은 ReLU 기반 신경망의 강건성 검증에 효과적으로 사용될 수 있는가?
RQ2기존 검증 방법과 비교해 볼 때 MIP 기반 검증은 속도와 확장성 면에서 어떻게 다른가?
RQ3임의의 픽셀 단위의 변화가 아니라 블러링과 같은 자연스러운 변형을 고려할 때, 적대적 예제는 의미 있는가?
RQ4자신의 모든 블러된 변형에 대해 증명적으로 강건한 입력을 식별할 수 있는가?
RQ5데이터셋 내에서 자연스러운 블러링 변형에 강건한 입력의 비율은 얼마이며, 어떤 조건에서 그러한 강건성이 발생하는가?

주요 결과

세 개의 은닉층을 갖는 완전연결 MNIST 네트워크에 대해 MIP 기반 검증은 기존 최고의 접근 방식보다 약 10배 빠르다.
블러된 이미지 공간에서 검색할 경우, 네트워크의 구조와 변형의 성격 때문에 일부 오분류가 증명적으로 불가능하다.
MNIST 입력 중 소수의 비율이 모든 블러된 변형에 대해 증명적으로 강건하며, 이는 모든 블러진 변형이 올바르게 분류됨을 의미한다.
이 방법은 적대적 블러링 커널을 사용한 컨볼루션 변형 전역에서 올바른 레이블을 유지하는 입력을 성공적으로 식별한다.
결과적으로 자연스러운 변형에 대한 적대적 예제는 제약이 없는 픽셀 단위의 공격에 비해 덜 흔하고 더 체계적인 경향이 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.