QUICK REVIEW

[논문 리뷰] RepVGG: Making VGG-style ConvNets Great Again

Xiaohan Ding, Xiangyu Zhang|arXiv (Cornell University)|2021. 01. 11.

Advanced Neural Network Applications참고 문헌 43인용 수 43

한 줄 요약

RepVGG는 다중 분기 학습-타임 아키텍처로 학습한 뒤 구조적 재매개화를 통해 추론 시 단순한 3x3 conv 바디로 변환하여 GPU에서 빠른 추론과 함께 높은 정확도를 달성한다.

ABSTRACT

We present a simple but powerful architecture of convolutional neural network, which has a VGG-like inference-time body composed of nothing but a stack of 3x3 convolution and ReLU, while the training-time model has a multi-branch topology. Such decoupling of the training-time and inference-time architecture is realized by a structural re-parameterization technique so that the model is named RepVGG. On ImageNet, RepVGG reaches over 80% top-1 accuracy, which is the first time for a plain model, to the best of our knowledge. On NVIDIA 1080Ti GPU, RepVGG models run 83% faster than ResNet-50 or 101% faster than ResNet-101 with higher accuracy and show favorable accuracy-speed trade-off compared to the state-of-the-art models like EfficientNet and RegNet. The code and trained models are available at https://github.com/megvii-model/RepVGG.

연구 동기 및 목표

간단하고 빠르며 메모리 효율이 높은 CNN 설계를 제시하여 다중 분기 아키텍처와 경쟁하도록 한다.
학습 시의 복잡성을 추론 시의 단순성과 분리하기 위해 구조적 재매개화를 활용한다.
ImageNet 및 시맨틱 세분화 작업에서 성능과 속도 이점을 입증한다.

제안 방법

학습 시 다중 분기 블록(신원(identity) 및 1x1 분기 포함)과 추론 시 단순한 3x3 컨볼루션의 쌓임으로 구성된 바디를 가진 RepVGG를 제안한다.
구조적 재매개화를 사용하여 학습 시 다중 분기 블록을 배치(BN 접고 커널 집계 포함)와 동등한 단일 3x3 커널로 배포를 변환한다.
BN 및 선행 컨벌루션의 합치와 1x1 및 identity 기여를 최종 3x3 커널에 합산/패딩하는 방정식을 도출한다(적절한 스트라이드와 패딩 매칭).
3x3 컨볼루션과 제어된 다운샘플링, 글로벌 평균 풀링, 최종 분류 헤드를 갖춘 5단계의 VGG 스타일 단순 토폴로지로 아키텍처를 구현한다.
브랜치 여부가 있는 경우와 없는 경우의 변형, BN 배치 위치의 제거 여부를 포함한 실험과 ResNet, EfficientNet, RegNet 대조를 통해 비교한다.

실험 결과

연구 질문

RQ1학습 시 다중 분기 설계를 빠른 인퍼런스 시 단순한 아키텍처로 재매개화해 정확도를 희생하지 않고도 달성할 수 있는가?
RQ2RepVGG의 속도-정확도 트레이드오버가 ImageNet에서 ResNet, EfficientNet, RegNet 같은 최신 모델과 비교하여 어떤가?
RQ3VGG 스타일의 단순 바디가 3x3 컨볼루션으로 ImageNet에서 경쟁력이 있으며 시맨틱 세분화로 옮길 수 있는가?
RQ4훈련 시의 identity 및 1x1 분기, BN 배치 위치, ReLU의 포함 여부가 최종 성능에 어떤 영향을 미치는가?
RQ5구조적 재매개화가 메모리 사용과 배포의 단순성에 실질적 이점을 제공하는가?

주요 결과

RepVGG는 추론 시 단순한 바디에서 ImageNet에서 80% 이상 Top-1 정확도를 달성, 이들이 보고한 평면 모델에서의 최초 사례이다.
NVIDIA 1080Ti에서 RepVGG 모델은 ResNet-50 및 ResNet-101보다 빠르게 실행되면서 정확도가 더 높고 EfficientNet 및 RegNet에 비해 속도-정확도 측면에서도 우호적이다.
교차 간격 그룹 컨볼루션(g2/g4)을 포함한 아키텍처 변형은 상당한 속도 향상을 제공하되 정확도 손실은 미미하다(예: RepVGG-B1g4 vs ResNet-101).
구조적 재매개화(학습 시 다중 분기에서 추론 시 단순) 는 필수적으로 확인되었다: 분기를 제거하거나 BN 배치를 조정하면 정확도가 저하되고, 완전한 재매개화가 최상의 결과를 낳는다.
ablation에서 RepVGG의 학습 시 BN 및 분기는 매개 수를 넘어서는 이점을 제공하며 DiracNet 및 단순 재매개화보다 우수하다.
RepVGG-B2/B3 변형은 ImageNet에서 강력한 성능(예: Top-1 최대 80.52%)을 보이며, 여러 베이스라인과 비교해 FLOPs는 경쟁적이고 매개 수는 더 낮다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.