Skip to main content
QUICK REVIEW

[논문 리뷰] RefConv: Re-parameterized Refocusing Convolution for Powerful ConvNets

Zhicheng Cai, Xiaohan Ding|arXiv (Cornell University)|2023. 10. 16.
Advanced Neural Network Applications인용 수 16
한 줄 요약

RefConv은 일반 합성곱 층을 재매개변수화된 리포커싱 메커니즘으로 대체하여 사전 학습 모델에서 학습된 커널 매개변수를 연결하고 추론 비용을 증가시키지 않으면서 정확도를 향상시킵니다. 학습 시 변환은 변환된 가중치를 생성하며, 모델 구조를 바꾸지 않고 추론에 사용됩니다.

ABSTRACT

We propose Re-parameterized Refocusing Convolution (RefConv) as a replacement for regular convolutional layers, which is a plug-and-play module to improve the performance without any inference costs. Specifically, given a pre-trained model, RefConv applies a trainable Refocusing Transformation to the basis kernels inherited from the pre-trained model to establish connections among the parameters. For example, a depth-wise RefConv can relate the parameters of a specific channel of convolution kernel to the parameters of the other kernel, i.e., make them refocus on the other parts of the model they have never attended to, rather than focus on the input features only. From another perspective, RefConv augments the priors of existing model structures by utilizing the representations encoded in the pre-trained parameters as the priors and refocusing on them to learn novel representations, thus further enhancing the representational capacity of the pre-trained model. Experimental results validated that RefConv can improve multiple CNN-based models by a clear margin on image classification (up to 1.47% higher top-1 accuracy on ImageNet), object detection and semantic segmentation without introducing any extra inference costs or altering the original model structure. Further studies demonstrated that RefConv can reduce the redundancy of channels and smooth the loss landscape, which explains its effectiveness.

연구 동기 및 목표

  • 기존 CNN 구조의 프라이어를 강화하기 위해 커널 매개변수 간의 연결을 리포커싱 변환을 통해 확립합니다.
  • 추론 시 아키텍처나 비용을 변경하지 않고 사전 학습된 모델의 표현 용량을 향상시킵니다.
  • 이미지 분류, 객체 탐지 및 의미 분할 전반에 걸친 방법의 효과를 입증합니다.
  • RefConv가 채널 중복 및 손실 지형에 미치는 영향을 분석하여 성능 향상의 원인을 설명합니다.

제안 방법

  • RefConv으로 일반 합성곱 층을 대체하고, 사전 학습 모델에서 상속된 기저 가중치 Wb를 고정하고 변환 집중 변환 T를 학습하여 변환된 가중치 Wt를 생성합니다.
  • Wt = T(Wb, Wr)로 정의하며 Wr은 학습 가능한 리포커싱 매개변수이고 Wt가 추론에 사용됩니다.
  • 깊이 방향성의 경우 밀집 리포커싱 변환을 사용하거나 다른 유형의 합성곱에 대해 다변량의 일반화된 버전을 사용하여 교차 채널 연결을 확립합니다.
  • 기저 가중치의 증가를 학습하기 위해 항등 매핑을 추가하여 i.e. Wt = Wb * T(Wb, Wr) + Wb로 만듭니다.
  • 고정된 Wb로 리포커싱 학습을 수행하고 Wr을 학습한 뒤, 추론을 위한 변환된 가중치를 저장하여 추론 그래프를 기준과 동일하게 유지합니다.
  • RefConv를 그룹별 및 밀집 합성곱으로 일반화하고 Refocusing Transformation의 그룹을 제어하는 하이퍼-파라미터 G를 도입하여 채널 간 연결과 매개변수 효율성의 균형을 맞춥니다.
  • Wt가 추론에 사용되고 구조가 바뀌지 않으므로 RefConv는 학습 시간 비용이 거의 없고 추론 비용이 전혀 없다고 보고합니다.

실험 결과

연구 질문

  • RQ1RefConv가 기존 커널 구조의 프라이어를 보강하여 추론 비용을 추가하지 않고 CNN 성능을 향상시킬 수 있는가?
  • RQ2리포커싱 변환이 사전 학습된 커널의 채널별 중복성과 채널 간 상호작용에 어떤 영향을 미치는가?
  • RQ3RefConv로 향상된 모델이 ImageNet 분류 및 객체 탐지 및 의미 분할과 같은 다운스트림 작업에서 성능을 향상시키는가?
  • RQ4표준 재학습이나 미세 조정과 비교하여 Refocusing Learning의 학습 역학 및 손실 지형의 함의는 무엇인가?

주요 결과

  • RefConv는 MobileNetv3-S의 경우 ImageNet에서 상위 1% 기준으로 최대 1.47%의 정확도 이득(예: top-1)과 ShuffleNetv2 및 FasterNet-S의 유의미한 이점을 포함하여 다양한 백본에서 명확한 정확도 향상을 보였습니다.
  • 추론으로의 변환된 가중치로의 변환 후에도 추론의 파라미터 수 및 FLOPs는 기준선과 동일하게 유지됩니다.
  • RefConv는 커널 채널 간의 KL-발산을 증가시켜 채널 중복성을 줄이고 더 다양한 표현을 나타냄을 시사합니다.
  • RefConv 학습은 손실 지형을 부드럽게 만들어 더 넓고 희박한 윤곽선을 형성하고 일반화가 더 잘될 수 있습니다.
  • 삭제 연구에서 사전 학습된 기저 가중치 Wb가 중요한 프라이어이며, 제로 초기화 Wr도 성능을 향상시킬 수 있지만 표준 무작위 초기화가 가장 좋았습니다.
  • RefConv 향상은 객체 탐지(Pascal VOC SSD) 및 의미 분할(Cityscapes DeepLabv3+)로도 전이되어 기준 대비 mAP/mIoU를 향상시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.