QUICK REVIEW

[논문 리뷰] Re-parameterizing Your Optimizers rather than Architectures

Xiaohan Ding, Honghao Chen|arXiv (Cornell University)|2022. 05. 30.

Advanced Neural Network Applications인용 수 27

한 줄 요약

본 논문은 모델 특유의 선지(prior) 지식을 옵티마이저에 주입하는 RepOptimizers를 소개하며, 간단한 VGG 스타일 모델(RepOpt-VGG)이 잘 설계된 네트워크의 성능에 필적하거나 이를 능가하면서 학습 속도는 더 빠르고 양자화도 더 용이하게 만드는 것을 가능하게 한다.

ABSTRACT

The well-designed structures in neural networks reflect the prior knowledge incorporated into the models. However, though different models have various priors, we are used to training them with model-agnostic optimizers such as SGD. In this paper, we propose to incorporate model-specific prior knowledge into optimizers by modifying the gradients according to a set of model-specific hyper-parameters. Such a methodology is referred to as Gradient Re-parameterization, and the optimizers are named RepOptimizers. For the extreme simplicity of model structure, we focus on a VGG-style plain model and showcase that such a simple model trained with a RepOptimizer, which is referred to as RepOpt-VGG, performs on par with or better than the recent well-designed models. From a practical perspective, RepOpt-VGG is a favorable base model because of its simple structure, high inference speed and training efficiency. Compared to Structural Re-parameterization, which adds priors into models via constructing extra training-time structures, RepOptimizers require no extra forward/backward computations and solve the problem of quantization. We hope to spark further research beyond the realms of model structure design. Code and models \url{https://github.com/DingXiaoH/RepOptimizers}.

연구 동기 및 목표

아키텍처 설계에만 의존하지 않고 옵티마이저 내에서 모델 특유의 priors를 사용하는 것을 동기 부여한다.
Gradient Re-parameterization (GR)와 RepOptimizers를 그래디언트 업데이트에 priors를 인코딩하는 방법으로 제안한다.
RepOpt-VGG가 최신 모델과 비교하여 경쟁력 있는 정확도와 우수한 학습 효율을 보임을 입증한다.
학습 속도, 메모리 효율성, 양자화 친화성 등과 같은 실용적 이점을 강조한다.

제안 방법

Gradient Re-parameterization (GR)를 정의하여 모델 특유의 하이퍼파라미터로 그래디언트를 수정한다.
추가적인 순전파/역전파 연산이나 새로운 파라미터 없이 GR을 구현하는 RepOptimizers를 소개한다.
구조적 priors를 그래디언트 승수(Grad Mult)와 개념적으로 연관시키기 위해 CSLA (Constant-Scale Linear Addition) 블록을 사용한다.
RepOpt-VGG를 구현하기 위해 RepVGG 스타일 블록의 BN을 학습 가능/비학습 가능한 채널 단위 스케일로 교체하고 Grad Mult를 도출한다.
검색 데이터셋에서 소형 보조 모델을 학습시켜 Grad Mult 하이퍼파라미터를 얻기 위해 Hyper-Search를 활용한다.
ImageNet에서 RepOpt-VGG를 학습시키고 정확도, 학습 속도, 메모리 사용, 양자화 동작을 평가하기 위해 RepVGG 및 EfficientNets와 비교한다.

실험 결과

연구 질문

RQ1비볼록 딥 넷의 학습 다이내믹스를 개선하기 위해 모델 특유의 priors를 옵티마이저에 효과적으로 통합할 수 있는가?
RQ2RepOptimizer로 학습된 일반적인 VGG 스타일 모델의 성능은 잘 설계된 아키텍처와 비교하여 어떠한가?
RQ3RepOptimizers가 데이터셋 간에 전달 가능한가(즉, 데이터셋에 독립적인가) 및 양자화에 미치는 영향은 무엇인가?

주요 결과

RepOpt-VGG는 정확도에서 여러 잘 설계된 모델에 필적하거나 이를 능가하면서 학습 속도도 빠르고 메모리 효율적이다.
RepOpt-VGG는 유사한 하드웨어에서 비슷한 정확도와 함께 RepVGG보다 약 1.8배 빠르게 학습한다(표 2).
RepOpt-VGG는 더 간단한 아키텍처와 학습 다이내믹스로 EfficientNets에 맞서는 Top-1 정확도를 보여준다(표 3).
결정적 요소인 초기화와 그래디언트 수정이 CSLA 기반 RepOptimizers가 대상 구조와의 등가성을 보존하는 데 필수적임을 분석에서 보여준다(표 4).
CIFAR-100에서의 Hyper-Search가 ImageNet으로 전달되는 Grad Mult를 산출하여 RepOptimizers가 모델 특이적이지만 데이터셋에 독립적이라는 개념을 지원한다(표 5와 6).
하위 작업에서 RepOpt-VGG는 COCO 탐지 및 Cityscapes 세분화에서 RepVGG와 비슷한 성능을 보인다(표 7).
RepOpt-VGG는 구조적으로 재 매개변수화된 모델보다 양자화 친화적인 동작을 보이며 INT8 PTQ에서 정확도 하락이 약 2.5% 수준에 불과하다(표 8).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.