QUICK REVIEW

[논문 리뷰] Parseval Networks: Improving Robustness to Adversarial Examples

Moustapha Cissé, Piotr Bojanowski|arXiv (Cornell University)|2017. 04. 28.

Anomaly Detection Techniques and Applications인용 수 179

한 줄 요약

Parseval 네트워크는 레이어별 Lipschitz 상수를 Parseval tight frames 유지 및 convex aggregation으로 제약하여 적대적扰perturbations에 대한 강건성을 개선하되 정확도와 학습 속도는 유지하거나 향상시킴.

ABSTRACT

We introduce Parseval networks, a form of deep neural networks in which the Lipschitz constant of linear, convolutional and aggregation layers is constrained to be smaller than 1. Parseval networks are empirically and theoretically motivated by an analysis of the robustness of the predictions made by deep neural networks when their input is subject to an adversarial perturbation. The most important feature of Parseval networks is to maintain weight matrices of linear and convolutional layers to be (approximately) Parseval tight frames, which are extensions of orthogonal matrices to non-square matrices. We describe how these constraints can be maintained efficiently during SGD. We show that Parseval networks match the state-of-the-art in terms of accuracy on CIFAR-10/100 and Street View House Numbers (SVHN) while being more robust than their vanilla counterpart against adversarial examples. Incidentally, Parseval networks also tend to train faster and make a better usage of the full capacity of the networks.

연구 동기 및 목표

심층 네트워크의 입력 작은 변화(적대적 예제)에 대한 강건성 동기화.
Lipschitz 상수를 제약하기 위한 계층별 규제(Parseval 규제) 도입.
SGD 및 일반 아키텍처(완전연결, 합성곱, 잔차)와 호환되는 효율적 학습 절차 개발.
Parseval 네트워크가 네트워크 용량을 더 잘 활용하고 강건성과 학습 속도를 개선하면서도 경쟁력 있는 정확도를 유지함을 보임.

제안 방법

각 은닉층의 Lipschitz 상수가 1 이하가 되도록 가중치 행렬에 대해 대략적인 Parseval tight frame을 유지.
합성곱 층의 경우 W가 Parseval tight frame이 되도록 제약하고 출력은 (2k+1)^(-1/2)로 재스케일링.
표준 합계 집계(summation)를 입력의 볼록 결합으로 대체하여 학습 가능한 알파를 통해 루프리스츠(리프츠) 경계 보장.
효율적인 투영 단계와 함께 정규화 항 R_beta(W)= (beta/2)||W^T W - I||_2^2로 Stiefel 유사 매니폴드에서 가중치 행렬을 최적화.
SGD 업데이트 중 가중치를 준수 직교성에 가깝게 유지하기 위한 한 단계 리트랙션(및 선택적 행 샘플링) 적용.
집합성 프로젝트를 사용하여 계층별 Lambda_p <= 1을 보장하기 위한 합성곱 계층의 집합성(단일성) 프로젝션.

실험 결과

연구 질문

RQ1Parseval 규제를 통한 계층별 Lipschitz 상수 제약이 정확도를 희생하지 않고 적대적 perturbation에 대한 강건성을 향상시킬 수 있는가?
RQ2완전연결, 합성곱, 잔차 아키텍처에서 SGD에서 Parseval 제약을 효율적으로 강제하는 방법은 무엇인가?
RQ3표준 이미지 데이터셋에서 강건성 향상을 위해 Parseval 규제와 적대적 학습을 결합하는 효과는 어떠한가?

주요 결과

Model	Clean	ε≈50	ε≈45	ε≈40	ε≈33
CIFAR-10 Vanilla	95.63	90.16	85.97	76.62	67.21
CIFAR-10 Parseval(OC)	95.82	91.85	88.56	78.79	61.38
CIFAR-10 Parseval	96.28	93.03	90.40	81.76	69.10
CIFAR-10 Vanilla	95.49	91.17	88.90	86.75	84.87
CIFAR-10 Parseval(OC)	95.59	92.31	90.00	87.02	85.23
CIFAR-10 Parseval	96.08	92.51	90.05	86.89	84.53
CIFAR-100 Vanilla	79.70	65.76	57.27	44.62	34.49
CIFAR-100 Parseval(OC)	81.07	70.33	63.78	49.97	32.99
CIFAR-100 Parseval	80.72	72.43	66.41	55.41	41.19
CIFAR-100 Vanilla	79.23	67.06	62.53	56.71	51.78
CIFAR-100 Parseval(OC)	80.34	69.27	62.93	53.21	52.60
CIFAR-100 Parseval	80.19	73.41	67.16	58.86	39.56
SVHN Vanilla	98.38	97.04	95.18	92.71	88.11
SVHN Parseval(OC)	97.91	97.55	96.35	93.73	89.09
SVHN Parseval	98.13	97.86	96.19	93.55	88.47

Parseval 학습은 특이값이 1에 가깝게 집중된 가중치 행렬을 만들며 거의 직교성을 나타냄.
Parseval 네트워크는 NIL 모델 대비 CIFAR-10/100 및 SVHN에서 클린 정확도가 경쟁력 있게 나타남.
Parseval 네트워크는 적대적 예제에 대한 강건성을 크게 향상시키며 종종 기본 모델을 능가하고 여러 설정에서 적대적 학습과 비슷하거나 더 나은 성능을 보임.
Parseval 규제와 적대적 학습의 결합은 특히 더 높은 노이즈 수준에서 가장 강건한 성능을 제공함.
Parseval 네트워크는 일반적으로 기존 모델보다 학습 속도가 빠르며 네트워크 용량을 더 잘 활용함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.