Skip to main content
QUICK REVIEW

[논문 리뷰] GhostNetV3: Exploring the Training Strategies for Compact Models

Zhenhua Liu, Zhiwei Hao|arXiv (Cornell University)|2024. 04. 17.
Generative Adversarial Networks and Image Synthesis인용 수 16
한 줄 요약

GhostNetV3은 특수한 훈련 전략—재매개화(re-parameterization), 지식 증류, 학습 스케줄, 데이터 증강—가 추론 아키텍처를 변경하지 않고 컴팩트 모델의 성능을 크게 향상시킨다.

ABSTRACT

Compact neural networks are specially designed for applications on edge devices with faster inference speed yet modest performance. However, training strategies of compact models are borrowed from that of conventional models at present, which ignores their difference in model capacity and thus may impede the performance of compact models. In this paper, by systematically investigating the impact of different training ingredients, we introduce a strong training strategy for compact models. We find that the appropriate designs of re-parameterization and knowledge distillation are crucial for training high-performance compact models, while some commonly used data augmentations for training conventional models, such as Mixup and CutMix, lead to worse performance. Our experiments on ImageNet-1K dataset demonstrate that our specialized training strategy for compact models is applicable to various architectures, including GhostNetV2, MobileNetV2 and ShuffleNetV2. Specifically, equipped with our strategy, GhostNetV3 1.3$ imes$ achieves a top-1 accuracy of 79.1% with only 269M FLOPs and a latency of 14.46ms on mobile devices, surpassing its ordinarily trained counterpart by a large margin. Moreover, our observation can also be extended to object detection scenarios. PyTorch code and checkpoints can be found at https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch.

연구 동기 및 목표

  • fixed inference architectures를 가진 컴팩트 모델의 성능에 미치는 훈련 구성 요소를 조사한다.
  • GhostNetV3의 깊이별(convolution) 및 1x1 컨볼루션의 정확도를 개선하는 가장 좋은 재매개화 기술을 식별한다.
  • 지식 증류, 학습 스케줄, EMA, 데이터 증강이 작은 모델에 미치는 영향을 탐구한다.
  • 객체 탐지 포함 다양한 컴팩트 아키텍처와 태스크에 일반화되는 특수한 훈련 레시피를 제공한다.

제안 방법

  • 깊이별 및 1x1 컨볼루션에 선형 병렬 가지를 추가하고 이를 추론 시 하나의 레이어로 접는 재매개화를 도입한다.
  • 다양한 교사 모델(ResNet-101, DeiT-B, BEiTV2-B)과 하이퍼파라미터(alpha, tau)로 지식 증류를 평가한다.
  • 러닝 레이트 스케줄(step vs cosine)과 EMA 설정을 비교하여 컴팩트 모델에 대한 강건한 최적화 전략을 결정한다.
  • AutoAug, RandAug, Mixup, CutMix, RandomErasing 등 데이터 증강 옵션을 평가하여 어떤 증강이 컴팩트 모델에 도움이 되는지 또는 해로운지 확인한다.
  • ImageNet-1K에서 GhostNetV3를 대상으로 광범위한 제거 연구를 수행한다(600 에폭, 배치 2048, MobileNetV2, ShuffleNetV2 등).
  • 학습 레시피를 COCO의 객체 탐지로 확장하여 훈련 레시피의 일반화를 테스트한다.

실험 결과

연구 질문

  • RQ1재매개화 및 추가된 1x1 깊이별 가지가 가지 수가 달라짐에 따라 GhostNetV3의 성능에 어떤 영향을 미치는가?
  • RQ2다른 교사 모델 및 KD 설정이 컴팩트 모델의 정확도에 미치는 영향은 무엇인가?
  • RQ3어떤 학습률 스케줄과 EMA 설정이 컴팩트 모델에 대해 가장 높은 검증 정확도를 낳는가?
  • RQ4어떤 데이터 증강 전략이 컴팩트 모델에 유익하거나 해로운가?
  • RQ5제안된 훈련 전략이 다른 컴팩트 아키텍처 및 객체 탐지 태스크로 전이되는가?

주요 결과

  • 1x1 깊이별 가지를 갖춘 재매개화가 GhostNetV3의 성능을 상당히 향상시키며, 가지 수가 3(N=3)일 때 최적의 성능에 도달한다.
  • BEiTV2-B를 교사로 사용하는 지식 증류가 GhostNetV3의 정확도를 높이고, 교사 품질이 높아질수록 학생의 성능이 더 잘 나오는 경향이 있다.
  • 코사인 학습률 스케줄이 실험된 스케줄 중에서 가장 높은 top-1 정확도를 제공하며, 너무 큰 학습률은 성능을 해친다.
  • Mixup과 CutMix 증강은 컴팩트 모델에 해로운 반면, 무작위 증강(RandAug)과 RandomErasing은 유익한 것으로 나타났다.
  • GhostNetV3 1.3x는 ImageNet-1K에서 79.1% top-1을, 269M FLOPs로 달성하고, GhostNetV3 1.6x는 80.4% top-1에 도달하여 399 MFLOPs로 다양한 컴팩트 기준에서 정확도/지연 시간 측면에서 상위를 차지한다.
  • 훈련 레시피가 MobileNetV2와 ShuffleNetV2에도 일반화되어 top-1 정확도를 상당한 차이로 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.