QUICK REVIEW

[논문 리뷰] GradAug: A New Regularization Method for Deep Neural Networks

Taojiannan Yang, Sijie Zhu|arXiv (Cornell University)|2020. 06. 14.

Adversarial Robustness in Machine Learning참고 문헌 41인용 수 24

한 줄 요약

GradAug는 전체 네트워크에서 너비를 무작위로 샘플링한 서브넷에 랜덤 이미지 변환(예: 스케일, 크롭)을 적용함으로써 일반화를 향상시키는 딥 네ural 네트워크를 위한 새로운 정규화 방법이다. 이러한 변환을 통해 자가 지도형 그래디언트 방해를 유도함으로써 GradAug는 ImageNet에서 ResNet-50의 정확도를 78.79%로 향상시키며, CutMix를 결합하면 79.67%까지 상승시켜 검출, 세그멘테이션 및 오염 및 적대적 공격에 대한 강건성에서 최신 기술을 초월한다.

ABSTRACT

We propose a new regularization method to alleviate over-fitting in deep neural networks. The key idea is utilizing randomly transformed training samples to regularize a set of sub-networks, which are originated by sampling the width of the original network, in the training process. As such, the proposed method introduces self-guided disturbances to the raw gradients of the network and therefore is termed as Gradient Augmentation (GradAug). We demonstrate that GradAug can help the network learn well-generalized and more diverse representations. Moreover, it is easy to implement and can be applied to various structures and applications. GradAug improves ResNet-50 to 78.79% on ImageNet classification, which is a new state-of-the-art accuracy. By combining with CutMix, it further boosts the performance to 79.67%, which outperforms an ensemble of advanced training tricks. The generalization ability is evaluated on COCO object detection and instance segmentation where GradAug significantly surpasses other state-of-the-art methods. GradAug is also robust to image distortions and FGSM adversarial attacks and is highly effective in low data regimes. Code is available at https://github.com/taoyang1122/GradAug

연구 동기 및 목표

과도하게 파rameter화된 딥 네럴 네트워크에서의 과적합 문제를 해결하기 위해, 특히 저데이터 환경과 검출 및 세그멘테이션과 같은 후행 작업에서의 성능 향상을 목표로 한다.
CutMix와 같은 샘플 믹싱 기법에서 발생하는 의미적 및 레이블 모호성을 피하기 위해 작업에 종속되지 않는 정규화 방법을 개발한다.
자기 지도형 그래디언트 방해를 통해 다양한 강건한 표현을 유도함으로써 모델의 일반화 능력을 향상시킨다.
다양한 아키텍처와 비전 작업에 널리 적용 가능한 단순하고 효과적인 정규화 기법을 개발한다.

제안 방법

GradAug는 훈련 중에 전체 네트워크의 각 레이어의 너비(채널 수)를 무작위로 감소시켜 서브넷을 샘플링한다.
입력 이미지에 랜덤 스케일, 크롭, 회전, 플립 등의 랜덤 이미지 변환이 적용된 후, 서로 다른 서브넷에 입력된다.
전체 네트워크의 가중치는 서브넷 간에 공유되어 지식 전이와 공동 최적화를 가능하게 한다.
서브넷은 동일한 변환된 입력에 대해 전체 네트워크의 출력에서 유도된 소프트 레이블을 사용하여 훈련되며, 별도의 태치터 없이 지식 정복을 가능하게 한다.
다양하고 변형된 입력에 노출된 서브넷을 통해 그래디언트 수준의 방해를 유도함으로써 강건하고 다양한 특징 학습을 촉진한다.
이 방법은 기존의 데이터 증강과 호환되며, CutMix와 같은 기법과 조합하여 성능 향상을 더욱 높일 수 있다.

실험 결과

연구 질문

RQ1서브넷 훈련을 통해 자가로 생성된 그래디언트 방해를 활용하는 정규화 방법이 딥 네트워크의 일반화를 향상시킬 수 있는가?
RQ2GradAug는 이미지 분류, 검출, 세그멘테이션에서 최신 기술의 데이터 증강 및 구조적 정규화 방법과 비교해 어떻게 성능을 내는가?
RQ3GradAug는 이미지 오염 및 FGSM 적대적 공격에 대해 강건한가?
RQ4현재 최고 기술 방법이 성능을 저하시키는 저데이터 환경(예: CIFAR-10에서 250~4000개 레이블)에서도 GradAug는 강력한 성능을 유지하는가?
RQ5GradAug는 CutMix와 같은 기존 데이터 증강 기법과 효과적으로 조합되어 정확도를 추가로 향상시킬 수 있는가?

주요 결과

GradAug는 ImageNet에서 ResNet-50의 정확도를 78.79%로 향상시켜 새로운 최고 기록을 수립했다.
CutMix와 조합할 경우 GradAug는 ImageNet에서 79.67%의 정확도를 달성하여 고급 훈련 기법의 앙상블을 초월했다.
COCO 객체 검출 및 인스턴스 세그멘테이션에서 GradAug는 단지 ImageNet 사전 훈련 가중치를 사용하여 Mask R-CNN-R50의 박스 AP를 +1.2, 마스크 AP를 +1.2 향상시켰다.
검출 프레임워크에 직접 적용했을 경우 GradAug는 기준 모델 대비 박스 AP를 +1.7, 마스크 AP를 +2.1 향상시켰다.
GradAug는 이미지 오염 및 FGSM 적대적 공격에 대해 강력한 강건성을 보이며, 기준 모델을 능가했다.
저데이터 환경(예: CIFAR-10에서 250~4000개 레이블)에서도 현재 최고 기술 방법이 성능을 저하시키는 상황에서도 GradAug는 기준 모델 대비 일관되게 성능 향상을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.