Skip to main content
QUICK REVIEW

[논문 리뷰] GradAug: A New Regularization Method for Deep Neural Networks

Taojiannan Yang, Sijie Zhu|arXiv (Cornell University)|2020. 06. 14.
Adversarial Robustness in Machine Learning참고 문헌 41인용 수 24
한 줄 요약

GradAug는 전체 네트워크에서 너비를 무작위로 샘플링한 서브넷에 랜덤 이미지 변환(예: 스케일, 크롭)을 적용함으로써 일반화를 향상시키는 딥 네ural 네트워크를 위한 새로운 정규화 방법이다. 이러한 변환을 통해 자가 지도형 그래디언트 방해를 유도함으로써 GradAug는 ImageNet에서 ResNet-50의 정확도를 78.79%로 향상시키며, CutMix를 결합하면 79.67%까지 상승시켜 검출, 세그멘테이션 및 오염 및 적대적 공격에 대한 강건성에서 최신 기술을 초월한다.

ABSTRACT

We propose a new regularization method to alleviate over-fitting in deep neural networks. The key idea is utilizing randomly transformed training samples to regularize a set of sub-networks, which are originated by sampling the width of the original network, in the training process. As such, the proposed method introduces self-guided disturbances to the raw gradients of the network and therefore is termed as Gradient Augmentation (GradAug). We demonstrate that GradAug can help the network learn well-generalized and more diverse representations. Moreover, it is easy to implement and can be applied to various structures and applications. GradAug improves ResNet-50 to 78.79% on ImageNet classification, which is a new state-of-the-art accuracy. By combining with CutMix, it further boosts the performance to 79.67%, which outperforms an ensemble of advanced training tricks. The generalization ability is evaluated on COCO object detection and instance segmentation where GradAug significantly surpasses other state-of-the-art methods. GradAug is also robust to image distortions and FGSM adversarial attacks and is highly effective in low data regimes. Code is available at https://github.com/taoyang1122/GradAug

연구 동기 및 목표

  • 과도하게 파rameter화된 딥 네럴 네트워크에서의 과적합 문제를 해결하기 위해, 특히 저데이터 환경과 검출 및 세그멘테이션과 같은 후행 작업에서의 성능 향상을 목표로 한다.
  • CutMix와 같은 샘플 믹싱 기법에서 발생하는 의미적 및 레이블 모호성을 피하기 위해 작업에 종속되지 않는 정규화 방법을 개발한다.
  • 자기 지도형 그래디언트 방해를 통해 다양한 강건한 표현을 유도함으로써 모델의 일반화 능력을 향상시킨다.
  • 다양한 아키텍처와 비전 작업에 널리 적용 가능한 단순하고 효과적인 정규화 기법을 개발한다.

제안 방법

  • GradAug는 훈련 중에 전체 네트워크의 각 레이어의 너비(채널 수)를 무작위로 감소시켜 서브넷을 샘플링한다.
  • 입력 이미지에 랜덤 스케일, 크롭, 회전, 플립 등의 랜덤 이미지 변환이 적용된 후, 서로 다른 서브넷에 입력된다.
  • 전체 네트워크의 가중치는 서브넷 간에 공유되어 지식 전이와 공동 최적화를 가능하게 한다.
  • 서브넷은 동일한 변환된 입력에 대해 전체 네트워크의 출력에서 유도된 소프트 레이블을 사용하여 훈련되며, 별도의 태치터 없이 지식 정복을 가능하게 한다.
  • 다양하고 변형된 입력에 노출된 서브넷을 통해 그래디언트 수준의 방해를 유도함으로써 강건하고 다양한 특징 학습을 촉진한다.
  • 이 방법은 기존의 데이터 증강과 호환되며, CutMix와 같은 기법과 조합하여 성능 향상을 더욱 높일 수 있다.

실험 결과

연구 질문

  • RQ1서브넷 훈련을 통해 자가로 생성된 그래디언트 방해를 활용하는 정규화 방법이 딥 네트워크의 일반화를 향상시킬 수 있는가?
  • RQ2GradAug는 이미지 분류, 검출, 세그멘테이션에서 최신 기술의 데이터 증강 및 구조적 정규화 방법과 비교해 어떻게 성능을 내는가?
  • RQ3GradAug는 이미지 오염 및 FGSM 적대적 공격에 대해 강건한가?
  • RQ4현재 최고 기술 방법이 성능을 저하시키는 저데이터 환경(예: CIFAR-10에서 250~4000개 레이블)에서도 GradAug는 강력한 성능을 유지하는가?
  • RQ5GradAug는 CutMix와 같은 기존 데이터 증강 기법과 효과적으로 조합되어 정확도를 추가로 향상시킬 수 있는가?

주요 결과

  • GradAug는 ImageNet에서 ResNet-50의 정확도를 78.79%로 향상시켜 새로운 최고 기록을 수립했다.
  • CutMix와 조합할 경우 GradAug는 ImageNet에서 79.67%의 정확도를 달성하여 고급 훈련 기법의 앙상블을 초월했다.
  • COCO 객체 검출 및 인스턴스 세그멘테이션에서 GradAug는 단지 ImageNet 사전 훈련 가중치를 사용하여 Mask R-CNN-R50의 박스 AP를 +1.2, 마스크 AP를 +1.2 향상시켰다.
  • 검출 프레임워크에 직접 적용했을 경우 GradAug는 기준 모델 대비 박스 AP를 +1.7, 마스크 AP를 +2.1 향상시켰다.
  • GradAug는 이미지 오염 및 FGSM 적대적 공격에 대해 강력한 강건성을 보이며, 기준 모델을 능가했다.
  • 저데이터 환경(예: CIFAR-10에서 250~4000개 레이블)에서도 현재 최고 기술 방법이 성능을 저하시키는 상황에서도 GradAug는 기준 모델 대비 일관되게 성능 향상을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.