QUICK REVIEW

[논문 리뷰] ResNet strikes back: An improved training procedure in timm

Ross Wightman, Hugo Touvron|arXiv (Cornell University)|2021. 10. 01.

Advanced Neural Network Applications참고 문헌 57인용 수 33

한 줄 요약

이 논문은 224x224에서 vanilla ResNet-50 학습을 최신 트레이닝 구성 요소로 재최적화하여 강력한 기준선을 설정하고 안정성을 평가하며, ImageNet-val에서 80.4% top-1을 보고한다.

ABSTRACT

The influential Residual Networks designed by He et al. remain the gold-standard architecture in numerous scientific publications. They typically serve as the default architecture in studies, or as baselines when new architectures are proposed. Yet there has been significant progress on best practices for training neural networks since the inception of the ResNet architecture in 2015. Novel optimization & data-augmentation have increased the effectiveness of the training recipes. In this paper, we re-evaluate the performance of the vanilla ResNet-50 when trained with a procedure that integrates such advances. We share competitive training settings and pre-trained models in the timm open-source library, with the hope that they will serve as better baselines for future work. For instance, with our more demanding training setting, a vanilla ResNet-50 reaches 80.4% top-1 accuracy at resolution 224x224 on ImageNet-val without extra data or distillation. We also report the performance achieved with popular models with our training procedure.

연구 동기 및 목표

현대 학습 구성 요소가 표준 추론 해상도(224x224)에서 vanilla ResNet-50 성능을 극대화하는 방법을 시연한다.
timm에서 공정한 아키텍처 비교를 위한 강력한 기준선 학습 절차 및 사전 학습 모델을 제공한다.
시드와 데이터세트 간의 학습 절차 안정성을 조사하여 측정 잡음 및 과적합 위험을 평가한다.
최적화된 레시피의 전이 학습 성능과 일반화를 다양한 아키텍처 및 다운스트림 작업에 보여준다.

제안 방법

튜닝된 하이퍼파라미터 및 구성 요소를 가진 세 가지 ResNet-50 학습 절차(A1: 600 에포크, A2: 300 에포크, A3: 100 에포크).
혼합 개념의 존재를 반영하기 위해 Mixup과 CutMix를 포함한 다중 라벨 BCE 손실을 적용한다.
RandAugment 변형, Mixup, CutMix, Repeat Augmentation, 확률적 깊이 정규화를 스케줄 의존적으로 사용한다.
대형 배치 최적화(LAMB)와 코사인 학습률 스케줄을 기본으로 사용; 부록 B의 CE/BCE 제거 연구와 대체 옵티마이저와 비교한다.
다양한 시드를 실행하고 ImageNet-val, ImageNet-V2, ImageNet-Real에서 성능을 측정하여 학습 안정성을 평가한다.
제안된 사전 학습 레시피를 사용하여 일곱 개의 다운스트림 데이터세트에서 전이 학습 성능을 보고한다.

실험 결과

연구 질문

RQ1224x224에서 ImageNet-1k val 정확도를 최대화하기 위해 timm 내에서 최적의 ResNet-50 학습 절차는 무엇인가?
RQ2현대 학습 구성 요소(증강, 규제 및 손실 선택)가 배치 크기와 에포크 수와 어떻게 상호작용하여 vanilla ResNet-50 성능에 영향을 미치는가?
RQ3최적화된 절차 하에서 무작위 시드 및 관련 테스트 세트(val, V2, Real) 간 ImageNet 정확도 결과는 얼마나 안정적인가?
RQ4제안된 학습 절차가 더 큰 아키텍처와 다운스트림 작업으로의 전이 이점을 제공하는가?
RQ5같은 학습 레시피를 모델 간에 재사용할 때 아키텍처-대-절차 비교는 어떻게 작동하는가?

주요 결과

A1 절차(600 에포크)가 224x224에서 ImageNet-val의 top-1 정확도 80.4%를 달성하여 이전 vanilla ResNet-50 기준선을 상회한다.
규제 및 증강 선택(Mixup, CutMix, RandAugment, Repeat Augmentation 포함)과 BCE 손실 및 LAMB 옵티마이저가 대규모 배치 크기(2048)에서 강력한 성능을 낳는다.
A2(300 에포크)가 79.8% top-1 val 정확도를 제공하며 현대 학습에서 일반적인 더 긴 일정과 경쟁적 결과를 보여준다; A3(100 에포크)는 78.1% top-1로 일정 간의 비용/이익 trade-off를 보여준다.
시드 변동성 분석은 일반적인 ImageNet-val 표준편차를 약 0.1로 나타내며 ImageNet-V2에서 더 높은 분산을 보인다, 이는 측정 노이즈와 여러 테스트 세트를 보고하는 가치가 있음을 시사한다.
다른 아키텍처로 A1/A2 레시피를 전이하면 문헌 기준선 대비 여러 모델에서 성능이 향상된다; A1은 많은 작업에서 일반적으로 최상의 다운스트림 전이를 제공한다.
논문은 같은 학습 절차를 맞추면 아키텍처 비교가 필요하다고 입증하며, 동일한 절차가 모델 간 상대적 순위를 다르게 만들 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.