QUICK REVIEW

[논문 리뷰] Training verified learners with learned verifiers

Krishnamurthy Dvijotham, Sven Gowal|arXiv (Cornell University)|2018. 05. 25.

Adversarial Robustness in Machine Learning참고 문헌 22인용 수 98

한 줄 요약

이 논문은 예측기와 검증기 네트워크를 공동으로 학습하여 worst-case 명세 위반을 한정하는 predictor-verifier training (PVT)을 제시하고, MNIST/SVHN에서 상태--of-the-art 검증 가능 강건성 및 CIFAR-10에서 빠른 학습 시간으로 비트력 있는 경계치를 달성한다.

ABSTRACT

This paper proposes a new algorithmic framework, predictor-verifier training, to train neural networks that are verifiable, i.e., networks that provably satisfy some desired input-output properties. The key idea is to simultaneously train two networks: a predictor network that performs the task at hand,e.g., predicting labels given inputs, and a verifier network that computes a bound on how well the predictor satisfies the properties being verified. Both networks can be trained simultaneously to optimize a weighted combination of the standard data-fitting loss and a term that bounds the maximum violation of the property. Experiments show that not only is the predictor-verifier architecture able to train networks to achieve state of the art verified robustness to adversarial examples with much shorter training times (outperforming previous algorithms on small datasets like MNIST and SVHN), but it can also be scaled to produce the first known (to the best of our knowledge) verifiably robust networks for CIFAR-10.

연구 동기 및 목표

신경망에서 실험적 방어를 넘어 검증 가능한 강건성의 필요성을 동기부여한다.
설계 사양을 인증하기 위해 예측기와 검증기를 공동으로 학습하는 확장 가능한 프레임워크를 제안한다.
훈련 중 각 예제 최적화 없이 최악의 위반을 bound하는 듀얼성 기반 검증을 활용한다.
학습 예제 전체에 걸쳐 듀얼 변수를 학습하여 검증 비용을 분담한다.
더 큰 데이터셋 및 상태-오브-더-아트의 검증 가능 강건성 결과로의 확장을 시연한다.

제안 방법

작업을 수행하는 예측기 네트워크를 정의한다(예: 분류).
worst-case 위반을 경계하기 위해 듀얼 변수를 출력하는 검증기 네트워크를 정의한다.
데이터 적합성 손실과 듀얼-경계 항(식(8))을 결합한 손실을 사용하여 두 네트워크를 공동으로 학습한다.
검증 문제의 듀얼 완화를 사용하여 예측기 및 검증기 매개변수에 대해 미분 가능한 상한을 얻는다.
다양한 검증기 아키텍처(상수, 직접, 역-전진)들을 실험하여 검증 타이트함과 정확도에 미치는 영향을 연구한다.
예제별 최적화 대신 학습된 검증기로 대체하여 검증 비용을 절약하는 것을 시연한다.

실험 결과

연구 질문

RQ1신경망 검증기가 학습 중에 검증 경계를 촉진하기 위해 듀얼 변수를 학습할 수 있는가?
RQ2 predictor-verifier training이 MNIST/SVHN를 넘어 확장 가능한 검증 가능한 강건한 모델을 제공하는가?
RQ3다양한 검증기 아키텍처가 검증된 정확도 및 표준 정확도, 학습 효율성에 어떤 영향을 미치는가?
RQ4PVT가 CIFAR-10에서 비트력 있는 검증 가능 강건성 경계를 생성하고 이를 적대적 학습과 비교해 유리한가?

주요 결과

Problem	Method	ε	Test Error	PGD Attack	Bound
MNIST	Baseline	0.1	0.77%	52.94%	100.00%
MNIST	Kolter and Wong [16]	0.1	1.80%	4.11%	5.82%
MNIST	Madry et al. [22]	0.1	0.60%	4.66%	100.00%
MNIST	Predictor-Verifier	0.1	1.20%	2.87%	4.44%
SVHN	Baseline	0.01	6.57%	87.45%	100.00%
SVHN	Kolter and Wong [16]	0.01	20.38%	33.74%	40.67%
SVHN	Madry et al. [22]	0.01	7.04%	23.63%	100.00%
SVHN	Predictor-Verifier	0.01	16.59%	33.14%	37.56%
CIFAR-10	Baseline	0.03	26.27%	99.99%	100.00%
CIFAR-10	Madry et al. [22]	0.03	39.00%	68.08%	100.00%
CIFAR-10	Predictor-Verifier	0.03	51.36%	67.28%	73.33%
CIFAR-10	Madry et al. [22] *	0.03	12.7%	54.2%	100.00%

PVT는 MNIST 및 SVHN에서 L_infinity 노이즈에 대한 상태-오브-더-아트 검증 가능 정확도를 달성한다.
PVT는 CIFAR-10으로 확장되며 이 데이터셋에 대해 보고된 최초의 비트력 있는 검증 가능한 적대적 위반 경계를 제공한다.
PVT는 이전의 검증 학습 방법에 비해 학습 시간이 크게 빠르다(예를 들어 MNIST 성능 도달에 6분, 경쟁 방법은 약 5시간).
검증기 아키텍처(직접 대 역-전진-역)들이 서로 다른 데이터셋에서 경쟁력 있거나 더 나은 검증 경계를 제공할 수 있다(상수는 최악으로 작동).
PVT는 검증 가능 강건성에 대해 표준 적대적 학습보다 우수하지만 순수 정확도에서 타협할 수 있어 깨끗한 정확도 개선의 여지가 있음을 시사한다.
검증 시간 분석은 PVT 모델이 예제당 비교적 낮은 검증 시간(예: 15 ms 예산)으로 거의 최적의 경계에 도달할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.