[논문 리뷰] RepVGG: Making VGG-style ConvNets Great Again
RepVGG는 다중 분기 학습-타임 아키텍처로 학습한 뒤 구조적 재매개화를 통해 추론 시 단순한 3x3 conv 바디로 변환하여 GPU에서 빠른 추론과 함께 높은 정확도를 달성한다.
We present a simple but powerful architecture of convolutional neural network, which has a VGG-like inference-time body composed of nothing but a stack of 3x3 convolution and ReLU, while the training-time model has a multi-branch topology. Such decoupling of the training-time and inference-time architecture is realized by a structural re-parameterization technique so that the model is named RepVGG. On ImageNet, RepVGG reaches over 80% top-1 accuracy, which is the first time for a plain model, to the best of our knowledge. On NVIDIA 1080Ti GPU, RepVGG models run 83% faster than ResNet-50 or 101% faster than ResNet-101 with higher accuracy and show favorable accuracy-speed trade-off compared to the state-of-the-art models like EfficientNet and RegNet. The code and trained models are available at https://github.com/megvii-model/RepVGG.
연구 동기 및 목표
- 간단하고 빠르며 메모리 효율이 높은 CNN 설계를 제시하여 다중 분기 아키텍처와 경쟁하도록 한다.
- 학습 시의 복잡성을 추론 시의 단순성과 분리하기 위해 구조적 재매개화를 활용한다.
- ImageNet 및 시맨틱 세분화 작업에서 성능과 속도 이점을 입증한다.
제안 방법
- 학습 시 다중 분기 블록(신원(identity) 및 1x1 분기 포함)과 추론 시 단순한 3x3 컨볼루션의 쌓임으로 구성된 바디를 가진 RepVGG를 제안한다.
- 구조적 재매개화를 사용하여 학습 시 다중 분기 블록을 배치(BN 접고 커널 집계 포함)와 동등한 단일 3x3 커널로 배포를 변환한다.
- BN 및 선행 컨벌루션의 합치와 1x1 및 identity 기여를 최종 3x3 커널에 합산/패딩하는 방정식을 도출한다(적절한 스트라이드와 패딩 매칭).
- 3x3 컨볼루션과 제어된 다운샘플링, 글로벌 평균 풀링, 최종 분류 헤드를 갖춘 5단계의 VGG 스타일 단순 토폴로지로 아키텍처를 구현한다.
- 브랜치 여부가 있는 경우와 없는 경우의 변형, BN 배치 위치의 제거 여부를 포함한 실험과 ResNet, EfficientNet, RegNet 대조를 통해 비교한다.
실험 결과
연구 질문
- RQ1학습 시 다중 분기 설계를 빠른 인퍼런스 시 단순한 아키텍처로 재매개화해 정확도를 희생하지 않고도 달성할 수 있는가?
- RQ2RepVGG의 속도-정확도 트레이드오버가 ImageNet에서 ResNet, EfficientNet, RegNet 같은 최신 모델과 비교하여 어떤가?
- RQ3VGG 스타일의 단순 바디가 3x3 컨볼루션으로 ImageNet에서 경쟁력이 있으며 시맨틱 세분화로 옮길 수 있는가?
- RQ4훈련 시의 identity 및 1x1 분기, BN 배치 위치, ReLU의 포함 여부가 최종 성능에 어떤 영향을 미치는가?
- RQ5구조적 재매개화가 메모리 사용과 배포의 단순성에 실질적 이점을 제공하는가?
주요 결과
- RepVGG는 추론 시 단순한 바디에서 ImageNet에서 80% 이상 Top-1 정확도를 달성, 이들이 보고한 평면 모델에서의 최초 사례이다.
- NVIDIA 1080Ti에서 RepVGG 모델은 ResNet-50 및 ResNet-101보다 빠르게 실행되면서 정확도가 더 높고 EfficientNet 및 RegNet에 비해 속도-정확도 측면에서도 우호적이다.
- 교차 간격 그룹 컨볼루션(g2/g4)을 포함한 아키텍처 변형은 상당한 속도 향상을 제공하되 정확도 손실은 미미하다(예: RepVGG-B1g4 vs ResNet-101).
- 구조적 재매개화(학습 시 다중 분기에서 추론 시 단순) 는 필수적으로 확인되었다: 분기를 제거하거나 BN 배치를 조정하면 정확도가 저하되고, 완전한 재매개화가 최상의 결과를 낳는다.
- ablation에서 RepVGG의 학습 시 BN 및 분기는 매개 수를 넘어서는 이점을 제공하며 DiracNet 및 단순 재매개화보다 우수하다.
- RepVGG-B2/B3 변형은 ImageNet에서 강력한 성능(예: Top-1 최대 80.52%)을 보이며, 여러 베이스라인과 비교해 FLOPs는 경쟁적이고 매개 수는 더 낮다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.