[논문 리뷰] ImageNet pre-trained models with batch normalization
이 논문은 Caffe용 ImageNet 사전 학습 모델의 새로운 세트를 제공하며, AlexNet과 VGG19의 배치 정규화 variant와 ResNet 모델을 포함하고 이전 공개 모델보다 성능 향상을 보인다. 또한 대형 CNN에서 배치 정규화를 사용하는 교육 세부 정보 및 실용적 지침을 논의한다.
Convolutional neural networks (CNN) pre-trained on ImageNet are the backbone of most state-of-the-art approaches. In this paper, we present a new set of pre-trained models with popular state-of-the-art architectures for the Caffe framework. The first release includes Residual Networks (ResNets) with generation script as well as the batch-normalization-variants of AlexNet and VGG19. All models outperform previous models with the same architecture. The models and training code are available at http://www.inf-cv.uni-jena.de/Research/CNN+Models.html and https://github.com/cvjena/cnn-models
연구 동기 및 목표
- Caffe에서 일반적인 아키텍처를 위한 ImageNet 사전 학습 모델의 출시를 촉진한다.
- AlexNet 및 VGG19와 같은 대형 CNN에 배치 정규화를 추가하는 이점을 보여준다.
- 이들 모델을 재현하고 미세 조정하기 위한 학습 코드와 실용적인 가이드를 제공한다.
- BN 변형 및 ResNet을 사용한 이전 공용 모델에 비해 실증적 이점을 보여준다.
제안 방법
- AlexNet과 VGG19를 각 합성곱 및 완전 연결 계층 뒤에 배치 정규화를 삽입하여 수정한다.
- 로컬 반응 정규화와 드롭아웃을 제거하고, 평균 차감을 입력 BN으로 대체한다.
- ILSVRC 2012(1.2M 이미지, 1000개 클래스)에서 64 에포크, 배치 크기 256로 각 모델에 대해 서로 다른 초기 학습률을 사용해 학습한다( AlexNet 0.05, VGG19 0.01, ResNet 0.1 ).
- 선형 학습률 감소를 사용하고 BN에 의존하여 더 큰 학습률과 안정적인 통계를 가능하게 하며, GPU 메모리가 제한된 경우 미세 조정 중 전역 통계를 활성화한다.
실험 결과
연구 질문
- RQ1AlexNet 및 VGG19의 배치 정규화 변형과 ResNet이 기존의 공개 모델들보다 ImageNet 사전 학습 성능을 향상시키는가?
- RQ2대형 CNN에서 배치 정규화가 ImageNet에서의 학습 역학과 최종 오류율에 어떤 영향을 미치는가?
- RQ3BN 활성화 모델을 미세 조정하는 것이 수동 평균 차감 없이도 가능하며 견고한 통계를 사용할 수 있는가?
- RQ4BN-강화 구조를 효과적으로 학습시키기 위해 필요한 실용적인 학습 설정(배치 크기, 학습률, 데이터 증강)은 무엇인가?
주요 결과
| 모델 | Top-1 오차 (우리) | Top-1 오차 (원본) | Top-5 오차 (우리) | Top-5 오차 (원본) |
|---|---|---|---|---|
| AlexNet | 39.9% | 42.6% | 18.1% | 19.6% |
| VGG19 | 26.9% | 28.7% | 8.8% | 9.9% |
| ResNet-10 | 36.1% | – | 14.8% | – |
| ResNet-50 | 24.6% | 24.7% | 7.6% | 7.8% |
- BN 변형이 AlexNet 및 VGG19가 이전에 발표된 모델보다 더 낮은 Top-1 및 Top-5 오류율을 달성한다.
- ResNet 모델은 배치 정규화를 적용한 경우 이전의 공용 잔차 네트워크와 경쟁력 있게 작동하고, 경우에 따라 개선한다.
- 제공된 모든 모델은 ILSVRC 2012 검증에서 동일한 아키텍처의 이전에 학습된 모델보다 성능이 우수하다.
- BN은 더 큰 학습률 사용을 가능하게 하며 대형 CNN의 일반화 성능을 향상시킬 수 있다.
- 입력 BN 계층으로 인해 평균 차감 없이도 BN 활성화 네트워크를 학습시킬 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.