[논문 리뷰] RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition
RepMLP는 학습 시 글로벌 퍼셉트론, 파티션 퍼셉트론, 로컬 퍼셉트론을 도입하고 이를 추론 시 세 개의 완전 연결층으로 병합할 수 있어, ImageNet 및 관련 작업에서 전통적인 CNN보다 더 낮은 FLOPs와 더 빠른 속도로 경쟁력 있는 정확도를 달성합니다.
We propose RepMLP, a multi-layer-perceptron-style neural network building block for image recognition, which is composed of a series of fully-connected (FC) layers. Compared to convolutional layers, FC layers are more efficient, better at modeling the long-range dependencies and positional patterns, but worse at capturing the local structures, hence usually less favored for image recognition. We propose a structural re-parameterization technique that adds local prior into an FC to make it powerful for image recognition. Specifically, we construct convolutional layers inside a RepMLP during training and merge them into the FC for inference. On CIFAR, a simple pure-MLP model shows performance very close to CNN. By inserting RepMLP in traditional CNN, we improve ResNets by 1.8% accuracy on ImageNet, 2.9% for face recognition, and 2.3% mIoU on Cityscapes with lower FLOPs. Our intriguing findings highlight that combining the global representational capacity and positional perception of FC with the local prior of convolution can improve the performance of neural network with faster speed on both the tasks with translation invariance (e.g., semantic segmentation) and those with aligned images and positional patterns (e.g., face recognition). The code and models are available at https://github.com/DingXiaoH/RepMLP.
연구 동기 및 목표
- 완전 연결층의 글로벌 용량과 위치 정보 인식을 이미지 인식에 활용하기 위한 동기 부여.
- 훈련 시 RepMLP 블록(Global Perceptron, Partition Perceptron, Local Perceptron)과 추론을 위한 컨벌션을 FC로 병합하는 간단하고 플랫폼에 구애받지 않는 방법 개발.
- ImageNet 분류, 안면 인식, 의미론적 분할 등 과제에서 전통 CNN보다 성능 향상을 증명하되 FLOPs를 낮춤.
- RepMLP를 ResNet-스타일 아키텍처에 배치하기 위한 실용 가이드 제공 및 파티션화, 그룹화, 커널 크기 등의 설계 선택이 미치는 영향 제시
제안 방법
- 피처 맵의 파티션 간 글로벌 상관관계를 주입하기 위해 Global Perceptron 도입.
- Partition Perceptron은 FC와 BN을 이용해 파티션된 맵에서 작동하고 파티션 간에 매개변수를 공유합니다.
- Partition 출력과 합쳐지는 K=1,3,5,7의 다수의 컨볼루션 브랜치와 BN을 가진 Local Perceptron 도입 및 그 출력의 합산.
- 매개변수 수를 줄이고 그룹화된 1x1 컨볼루션을 통해 구현 가능하게 하는 그룹화 FC(gFC) 도입으로 장거리 의존성의 확장을 가능하게 함.
- 훈련 시 계산과 동등성을 유지하는 FC 기반 추론 블록으로 컨볼루션과 BN을 단순하고 미분 가능한 방식으로 병합하는 절차(W^(F,p), BN 융합 방정식) 설명.
- 전체 RepMLP 블록을 추론 효율성을 위해 세 개의 FC 층으로 변환하는 방법 설명
실험 결과
연구 질문
- RQ1FC 기반 블록이 로컬 priors를 통해 이미지 작업에 대해 전역 의존성과 위치 정보를 모두 포착할 수 있는가?
- RQ2컨브/BN 가지(branches)로 훈련하고 추론 시 비용 없이 FC로 병합하여 정확도와 속도를 향상시킬 수 있는가?
- RQ3파티션화, 그룹화, 커널 선택이 이미지 분류, 얼굴, 세그먼테이션에서 성능에 어떤 영향을 미치는가?
- RQ4RepMLP가 표준 벤치마크에서 속도와 정확도 측면에서 자기-주의(self-attention) 및 다른 글로벌 용량 모듈과 비교할 때 어떤 차이가 있는가?
주요 결과
- RepMLP를 이용한 CIFAR-10의 순수 MLP가 91.11% 정확도와 52.8M FLOPs를 달성하여 특정 구성에서 CNN 성능에 근접함.
- ImageNet(224x224)에서 ResNet-50의 컨볼루션을 RepMLP로 교체하면, 일반 ResNet-50보다 낮은 FLOPs와 더 빠른 처리량으로 경쟁력 있는 정확도를 얻음(예: 224 입력의 RepMLP-Res50은 상위 1% 78.55% 정확도, 초당 636 샘플, 40.87M 파라미터, 반면 ResNet-50은 77.19% 정확도, 689샘플/초, 25.53M 파라미터).
- 320x320 입력에서 RepMLP-Res50 변형은 ResNet-50/ResNet-101 대조군보다 더 높은 정확도와 처리량을 달성; 예를 들어 g8/16의 RepMLP-Res50은 79.76% 상위-1 정확도와 312샘플/초를 달성하는 반면, 유사한 ResNet-50/101 구성은 더 낮은 처리량을 보임.
- 테이블 비교에 따르면 RepMLP 변형은 표준 CNN 대비 유사하거나 향상된 정확도에 대해 FLOPs를 대폭 감소시킬 수 있음(예: 224 입력의 ResNet-50 대 RepMLP-Res50).
- 그룹화 및 채널 축소 매개변수(r, g)를 증가시키면 정확도, 속도 및 매개변수 수 간의 절충이 가능해지며 특정 구성은 더 빠른 속도와 경쟁력 있는 정확도를 제공합니다.
- 이 아키텍처는 FC의 글로벌 용량과 위치 정보 인식 능력과 컨브 브랜치의 로컬 PRIORS를 결합하여 비-로컬/자기 주의 모듈보다 간단하고 효율적인 이점을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.