Skip to main content
QUICK REVIEW

[논문 리뷰] RepVGG: Making VGG-style ConvNets Great Again

Xiaohan Ding, Xiangyu Zhang|arXiv (Cornell University)|2021. 01. 11.
Advanced Neural Network Applications참고 문헌 43인용 수 43
한 줄 요약

RepVGG는 다중 분기 학습-타임 아키텍처로 학습한 뒤 구조적 재매개화를 통해 추론 시 단순한 3x3 conv 바디로 변환하여 GPU에서 빠른 추론과 함께 높은 정확도를 달성한다.

ABSTRACT

We present a simple but powerful architecture of convolutional neural network, which has a VGG-like inference-time body composed of nothing but a stack of 3x3 convolution and ReLU, while the training-time model has a multi-branch topology. Such decoupling of the training-time and inference-time architecture is realized by a structural re-parameterization technique so that the model is named RepVGG. On ImageNet, RepVGG reaches over 80% top-1 accuracy, which is the first time for a plain model, to the best of our knowledge. On NVIDIA 1080Ti GPU, RepVGG models run 83% faster than ResNet-50 or 101% faster than ResNet-101 with higher accuracy and show favorable accuracy-speed trade-off compared to the state-of-the-art models like EfficientNet and RegNet. The code and trained models are available at https://github.com/megvii-model/RepVGG.

연구 동기 및 목표

  • 간단하고 빠르며 메모리 효율이 높은 CNN 설계를 제시하여 다중 분기 아키텍처와 경쟁하도록 한다.
  • 학습 시의 복잡성을 추론 시의 단순성과 분리하기 위해 구조적 재매개화를 활용한다.
  • ImageNet 및 시맨틱 세분화 작업에서 성능과 속도 이점을 입증한다.

제안 방법

  • 학습 시 다중 분기 블록(신원(identity) 및 1x1 분기 포함)과 추론 시 단순한 3x3 컨볼루션의 쌓임으로 구성된 바디를 가진 RepVGG를 제안한다.
  • 구조적 재매개화를 사용하여 학습 시 다중 분기 블록을 배치(BN 접고 커널 집계 포함)와 동등한 단일 3x3 커널로 배포를 변환한다.
  • BN 및 선행 컨벌루션의 합치와 1x1 및 identity 기여를 최종 3x3 커널에 합산/패딩하는 방정식을 도출한다(적절한 스트라이드와 패딩 매칭).
  • 3x3 컨볼루션과 제어된 다운샘플링, 글로벌 평균 풀링, 최종 분류 헤드를 갖춘 5단계의 VGG 스타일 단순 토폴로지로 아키텍처를 구현한다.
  • 브랜치 여부가 있는 경우와 없는 경우의 변형, BN 배치 위치의 제거 여부를 포함한 실험과 ResNet, EfficientNet, RegNet 대조를 통해 비교한다.

실험 결과

연구 질문

  • RQ1학습 시 다중 분기 설계를 빠른 인퍼런스 시 단순한 아키텍처로 재매개화해 정확도를 희생하지 않고도 달성할 수 있는가?
  • RQ2RepVGG의 속도-정확도 트레이드오버가 ImageNet에서 ResNet, EfficientNet, RegNet 같은 최신 모델과 비교하여 어떤가?
  • RQ3VGG 스타일의 단순 바디가 3x3 컨볼루션으로 ImageNet에서 경쟁력이 있으며 시맨틱 세분화로 옮길 수 있는가?
  • RQ4훈련 시의 identity 및 1x1 분기, BN 배치 위치, ReLU의 포함 여부가 최종 성능에 어떤 영향을 미치는가?
  • RQ5구조적 재매개화가 메모리 사용과 배포의 단순성에 실질적 이점을 제공하는가?

주요 결과

  • RepVGG는 추론 시 단순한 바디에서 ImageNet에서 80% 이상 Top-1 정확도를 달성, 이들이 보고한 평면 모델에서의 최초 사례이다.
  • NVIDIA 1080Ti에서 RepVGG 모델은 ResNet-50 및 ResNet-101보다 빠르게 실행되면서 정확도가 더 높고 EfficientNet 및 RegNet에 비해 속도-정확도 측면에서도 우호적이다.
  • 교차 간격 그룹 컨볼루션(g2/g4)을 포함한 아키텍처 변형은 상당한 속도 향상을 제공하되 정확도 손실은 미미하다(예: RepVGG-B1g4 vs ResNet-101).
  • 구조적 재매개화(학습 시 다중 분기에서 추론 시 단순) 는 필수적으로 확인되었다: 분기를 제거하거나 BN 배치를 조정하면 정확도가 저하되고, 완전한 재매개화가 최상의 결과를 낳는다.
  • ablation에서 RepVGG의 학습 시 BN 및 분기는 매개 수를 넘어서는 이점을 제공하며 DiracNet 및 단순 재매개화보다 우수하다.
  • RepVGG-B2/B3 변형은 ImageNet에서 강력한 성능(예: Top-1 최대 80.52%)을 보이며, 여러 베이스라인과 비교해 FLOPs는 경쟁적이고 매개 수는 더 낮다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.