[논문 리뷰] Revisiting ResNets: Improved Training and Scaling Strategies
이 논문은 아키텍처, 학습, 스케일링을 분리하여 개선된 학습 및 확장 전략이 상태-오브-더-아트 모델에 필적하는 ResNet을 낳는다는 것을 보여주며, ResNet-RS가 EfficientNets에 비해 상당한 속도 향상을 달성하면서도 정확도를 유지합니다.
Novel computer vision architectures monopolize the spotlight, but the impact of the model architecture is often conflated with simultaneous changes to training methodology and scaling strategies. Our work revisits the canonical ResNet (He et al., 2015) and studies these three aspects in an effort to disentangle them. Perhaps surprisingly, we find that training and scaling strategies may matter more than architectural changes, and further, that the resulting ResNets match recent state-of-the-art models. We show that the best performing scaling strategy depends on the training regime and offer two new scaling strategies: (1) scale model depth in regimes where overfitting can occur (width scaling is preferable otherwise); (2) increase image resolution more slowly than previously recommended (Tan & Le, 2019). Using improved training and scaling strategies, we design a family of ResNet architectures, ResNet-RS, which are 1.7x - 2.7x faster than EfficientNets on TPUs, while achieving similar accuracies on ImageNet. In a large-scale semi-supervised learning setup, ResNet-RS achieves 86.2% top-1 ImageNet accuracy, while being 4.7x faster than EfficientNet NoisyStudent. The training techniques improve transfer performance on a suite of downstream tasks (rivaling state-of-the-art self-supervised algorithms) and extend to video classification on Kinetics-400. We recommend practitioners use these simple revised ResNets as baselines for future research.
연구 동기 및 목표
- 아키텍처 변화와 독립적으로 ResNet 성능에 미치는 학습 방법의 영향을 평가한다.
- 학습 규칙에 따른 다양한 훈련 체제에서 깊이, 너비, 해상도의 스케일링 전략을 체계적으로 연구하여 최적의 관행을 도출한다.
- TPU/GPU에서 속도-정확도 최적의 균형을 맞추도록 속도-정확도 최적화를 위한 ResNet-RS 가족을 개발한다.
- 업데이트된 ResNet의 Semi-supervised 및 전이 학습 성능을 평가한다.
- 향상된 학습/스케일링 전략의 일반성을 비디오/하위 작업과 같은 관련 작업으로 확장한다.
제안 방법
- 최신 학습 및 정규화 기법을 표준 ResNet 아키텍처에 적용한다.
- 학습 방법, 정규화, 아키텍처 조정의 효과를 정량화하기 위한 추가적 제거 연구를 수행한다.
- 전체 학습 기간(350 에폭) 동안 깊이, 너비, 이미지 해상도에 걸쳐 모델을 체계적으로 확장한다.
- 다른 학습 체제에서의 스케일링 전략을 비교하여 깊이와 너비 간 트레이드오프를 파악한다.
- 개선된 학습 및 스케일링 전략을 다양한 모델 크기에 적용하여 ResNet-RS를 설계한다.
- 가짜 라벨링 데이터로의 반지도 학습 및 다운스트림 작업에서의 전이 학습 성능을 평가한다.
- EfficientNets 대비 속도 향상을 설명하기 위해 지연 시간, 메모리 및 FLOPs를 분석한다.
실험 결과
연구 질문
- RQ1아키텍처 변경과 무관하게 ResNet 성능에 영향을 미치는 학습 방법 및 정규화의 상호 작용은 어떠한가?
- RQ2다른 학습 체제에서 깊이, 너비, 해상도 중 어떤 스케일링 전략이 속도-정확도 Pareto를 가장 잘 달성하는가?
- RQ3수정된 ResNet(ResNet-RS)이 TPU/GPU에서 EfficientNets보다 비슷한 정확도를 유지하면서 성능을 능가할 수 있는가?
- RQ4향상된 학습 및 스케일링 전략이 세미-수퍼바이즈드 학습 및 다운스트림 작업(비디오 포함)에 전이되는가?
주요 결과
| 모델 | 해상도 | Top-1 | 매개변수 (M) | 연산량 (십억) | TPU-v3 지연 시간 (초) | 메모리 (GB) | GPU 지연 시간 (초) | 비고 |
|---|---|---|---|---|---|---|---|---|
| RS-350 | 256 | 84.0 | 164 | 69 | 1.1 | 7.3 | — | Table 3의 EfficientNet-B6/B7과 비교. |
| ENet-B6 | 528 | 84.0 | 43 (3.8x) | 38 (1.8x) | 3.0 | 16.6 | — | EfficientNet-B6 항목. |
| RS-420 | 320 | 84.4 | 192 | 128 | 2.1 | 15.5 | — | 해상도가 높은 RS 모델. |
| ENet-B7 | 600 | 84.7 | 66 (2.9x) | 74 (1.7x) | 6.0 | 28.3 | — | EfficientNet-B7 항목. |
- 학습 방법만으로도 ResNet-200의 Top-1 정확도가 79.0%에서 82.2%로 향상된다.
- SE 및 ResNet-D를 추가하면 Top-1이 83.4%까지 상승하며(학습 방법이 대부분의 이득에 기여).
- ResNet-RS 모델은 이미지넷에서 유사 정확도에 대해 TPU에서 EfficientNets보다 1.7배~2.7배, GPU에서는 2.1배~3.3배 더 빠르다.
- 130M개의 가짜 라벨 이미지로 학습하는 반지도 학습에서 ResNet-RS-152의 Top-1은 86.2%에 도달(TPU 상 EfficientNet-NoisyStudent 대비 4.7배 더 빠름).
- ResNet-RS는 Kinetics-400의 3D-ResNet을 +4.0% 개선(73.4%에서 77.4%로 상승).
- 개선된 학습으로 얻은 ResNet 체크포인트는 다운스트림 작업에서 자체감쇠된 표현 대비 동등하거나 우수한 성능을 발휘(SimCLR 변형과 대등한 수준의 자기지도 표현에 비견).
- EfficientNet-RS(느린 이미지 스케일링)는 Pareto 효율성을 개선하지만, 속도-정확도 곡선 면에서 여전히 ResNet-RS가 우위를 점한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.