QUICK REVIEW

[논문 리뷰] Benchmarking Neural Network Robustness to Common Corruptions and Perturbations

Dan Hendrycks, Thomas G. Dietterich|arXiv (Cornell University)|2019. 03. 28.

Adversarial Robustness in Machine Learning인용 수 306

한 줄 요약

ImageNet-C와 ImageNet-P 벤치마크를 도입하여 이미지 분류기 강건성을 일반적인 손상 및 섭동에 대해 측정하고, 아키텍처의 영향 분석 및 강건성 향상을 시연한다.

ABSTRACT

In this paper we establish rigorous benchmarks for image classifier robustness. Our first benchmark, ImageNet-C, standardizes and expands the corruption robustness topic, while showing which classifiers are preferable in safety-critical applications. Then we propose a new dataset called ImageNet-P which enables researchers to benchmark a classifier's robustness to common perturbations. Unlike recent robustness research, this benchmark evaluates performance on common corruptions and perturbations not worst-case adversarial perturbations. We find that there are negligible changes in relative corruption robustness from AlexNet classifiers to ResNet classifiers. Afterward we discover ways to enhance corruption and perturbation robustness. We even find that a bypassed adversarial defense provides substantial common perturbation robustness. Together our benchmarks may aid future work toward networks that robustly generalize.

연구 동기 및 목표

안전-critical 응용 분야를 위한 강건한 이미지 분류를 촉진하기 위해 최악의 경우의 적대적 사례가 아닌 실제 세계의 손상과 섭동에 초점을 맞춘다.
모델 간 공정하고 비교 가능한 강건성 평가를 가능하게 하는 표준화된 벤치마크(ImageNet-C 및 ImageNet-P)를 생성한다.
아키텍처 변화와 강건성 향상 기술이 손상 및 섭동 강건성에 미치는 영향을 평가한다.
정확도를 해치지 않으면서 강건성을 향상시키는 방법을 식별하고, 적대적 방어와 일반 섭동 간의 상호작용을 탐구한다.

제안 방법

ImageNet-C의 75개 손상에 대해 5가지 심각도 수준의 평균 성능으로 손상 강건성을 정의한다.
섭동 시퀀스(ImageNet-P) 및 Flip Rate(FR)와 Top-5 Distance(T5D)와 같은 지표를 통해 섭동 강건성을 정의한다.
손상에 대한 오결손 벤치마크 지표를 제시: Corruption Error(CE), Relative Corruption Error, mean CE(mCE), Relative mCE; 섭동에 대해서는 Flip Rate(FR), mean Flip Rate(mFR), Top-5 Distance(T5D), mean Top-5 Distance(mT5D).
다섯 가지 손상 유형을 네 가지 범주(노이즈, 블러, 기상, 디지털)로 구성된 ImageNet-C를 15종으로 구축하고, 다섯 단계의 심각도에서 생성; 일반 섭동에서 temporally perturbed 시퀀스를 갖춘 ImageNet-P를 생성한다.
아키텍처 범위를 평가하여 손상 및 섭동 강건성 비교(AlexNet, SqueezeNet, VGG, ResNet, DenseNet, ResNeXt).
히스토그램 평활화(CLAHE), 다중 스케일 네트워크(Multigrid, MSDNet), 더 큰 특징 집계 네트워크(DenseNet, ResNeXt) 및 적대적 로짓 페어링(Adversarial Logit Pairing, ALP) 같은 강건성 향상 기법을 통해 cross-robustness 효과를 시연한다.

실험 결과

연구 질문

RQ1현대 아키텍처가 ImageNet-C에서 mCE 및 Relative mCE로 측정한 손상 강건성에서 어떻게 차이가 나는가?
RQ2ImageNet-P에서 mFR 및 mT5D로 측정한 일반 섭동에 대해 분류기가 얼마나 강건한가?
RQ3손상에 대한 강건성 향상이 섭동 강건성에도 향상시키며, 순수한(clean) 정확도와의 트레이드오프가 있는가?
RQ4Worst-case 섭동에 대한 의도된 방어가 일반 섭동과 손상에 대한 성능을 향상시킬 수 있는가?
RQ5손상 및 섭동 강건성에서 가장 큰 개선을 이끄는 아키텍처 또는 전처리 전략은 무엇인가?

주요 결과

네트워크	오류	mCE	가우스	샷	임펄스	디포커스	글래스	모션	줌	눈	서리	안개	밝기	콘트래스트	탄성	픽셀	JPEG
AlexNet	43.5	100.0	100	100	100	100	100	100	100	100	100	100	100	100	100	100	100
SqueezeNet	41.8	104.4	107	106	105	100	103	101	100	101	103	97	97	98	106	109	134
VGG-11	31.0	93.5	97	97	100	92	99	93	91	92	91	84	75	86	97	107	100
VGG-19	27.6	88.9	89	91	95	89	98	90	90	89	86	75	68	80	97	102	94
VGG-19+BN	25.8	81.6	82	83	88	82	94	84	86	80	78	69	61	74	94	85	83
ResNet-18	30.2	84.7	87	88	91	84	91	87	89	86	84	78	69	78	90	80	85
ResNet-50	23.9	76.7	80	82	83	75	89	78	80	78	75	66	57	71	85	77	77

AlexNet에서 ResNet으로 가며 손상 강건성은 상대적으로 크게 개선되지 않으며(Relative mCE가 종종 AlexNet보다 나쁨), 강건성 격차가 크다.
손상 강건성이 섭동 강건성을 보장하는 것은 아니다; 손상 강건성이 높아도 간단한 섭동에서 네트워크가 불안정할 수 있다.
ResNet-50에 적용 시 CLAHE 전처리로 강건성이 다소 향상된다(mCE 감소).
Multigrid 및 MSDNet 다중 스케일 아키텍처가 손상 강건성을 개선하며, 소음 입력에서 Multigrid가 ResNet-50보다 낮은 mCE를 보인다.
DenseNets와 ResNeXts의 피처 집계 방식이 손상 강건성과 섭동 강건성에서 상당한 이점을 제공하며, 대형 모델일수록 더 강건한 경향이 있다.
적대적 로짓 페어링(ALP) 방어는 적대적 강건성은 제한적이더라도 일반 섭동 강건성(mFR 및 mT5D)에서 주목할 만한 이점을 제공한다.
ImageNet 이미지를 Stylized-ImageNet으로 스타일링하면 mCE가 감소하여 질감 편향이 강건성 향상에 기여할 수 있음을 시사한다.
전반적으로 강건성 향상은 종종 순수 정확도 증가와 함께 나타나며 정확도와 강건성 사이의 엄격한 트레이드오프라는 개념에 도전한다.
논문은 공정한 비교를 가능하게 하고 결과 선택 편의를 피하기 위한 엄격하고 표준화된 벤치마크를 도입한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.