[論文レビュー] Re-parameterizing Your Optimizers rather than Architectures
本論文は RepOptimizers を導入し、モデル特有の事前知識をオプティマイザに注入することで、VGG風モデル(RepOpt-VGG)を、より良く設計されたネットと同等以上の性能に引き上げつつ、訓練を速くし、量子化を容易にする。
The well-designed structures in neural networks reflect the prior knowledge incorporated into the models. However, though different models have various priors, we are used to training them with model-agnostic optimizers such as SGD. In this paper, we propose to incorporate model-specific prior knowledge into optimizers by modifying the gradients according to a set of model-specific hyper-parameters. Such a methodology is referred to as Gradient Re-parameterization, and the optimizers are named RepOptimizers. For the extreme simplicity of model structure, we focus on a VGG-style plain model and showcase that such a simple model trained with a RepOptimizer, which is referred to as RepOpt-VGG, performs on par with or better than the recent well-designed models. From a practical perspective, RepOpt-VGG is a favorable base model because of its simple structure, high inference speed and training efficiency. Compared to Structural Re-parameterization, which adds priors into models via constructing extra training-time structures, RepOptimizers require no extra forward/backward computations and solve the problem of quantization. We hope to spark further research beyond the realms of model structure design. Code and models \url{https://github.com/DingXiaoH/RepOptimizers}.
研究の動機と目的
- アーキテクチャ設計だけに依存するのではなく、オプティマイザ内でモデル特有の事前知識を活用する動機づけを行い、単なるアーキテクチャ設計だけに頼らない。
- 勾配更新に事前知識を組み込む手段として、Gradient Re-parameterization (GR) と RepOptimizers を提案する。
- RepOpt-VGG が最先端モデルと競合する精度と、訓練効率の面で優れていることを示す。
- 訓練速度、メモリ効率、量子化適性などの実践的な利点を強調する。
提案手法
- 勾配をモデル特有のハイパーパラメータで修正する Gradient Re-parameterization (GR) を定義する。
- 追加の前方/後方計算や新しいパラメータを必要とせずに GR を実装する RepOptimizers を導入する。
- 構造的な事前知識を勾配乗数 (Grad Mult) に概念的に関連づける CSLA (Constant-Scale Linear Addition) ブロックを用いる。
- Trainable/非 Trainable チャンネルごとのスケールに置換して RepVGG風ブロックの BN を置換し、Grad Mult を導出して RepOpt-VGG を具象化する。
- 検索データセット上で小規模な補助モデルを訓練して Grad Mult のハイパーパラメータを得るために Hyper-Search を用いる。
- ImageNet 上で RepOpt-VGG を訓練し、精度、訓練速度、メモリ使用量、および量子化挙動を評価するために RepVGG および EfficientNets と比較する。
実験結果
リサーチクエスチョン
- RQ1非凸深層ネットの訓練ダイナミクスを改善するために、モデル特有の事前知識をオプティマイザに効果的に組み込むことは可能か。
- RQ2RepOptimizer で訓練した素の VGG 風モデルは、よく設計されたアーキテクチャと比較してどのような性能を示すか。
- RQ3RepOptimizers はデータセット間で移植可能か(データセットに依存しないか)、および量子化への影響はどうなるか。
主な発見
- RepOpt-VGG は、いくつかのよく設計されたモデルと精度で同等かそれを上回り、訓練が速く、メモリ効率にも優れている。
- RepOpt-VGG は、同等のハードウェアで同程度の精度を達成しつつ、RepVGG より約 1.8 倍の訓練速度で学習する(Table 2)。
- RepOpt-VGG は、シンプルなアーキテクチャと訓練ダイナミクスを用いながら EfficientNets に対して競争力のある Top-1 精度を示す(Table 3)。
- アブレーション研究は、初期化と勾配修正の両方が、CSLA ベースの RepOptimizers がターゲット構造との等価性を保つために不可欠であることを示す(Table 4)。
- CIFAR-100 での Hyper-Search は ImageNet へ転移する Grad Mult を生み出し、RepOptimizers はモデル特有だがデータセットに依存しない、という概念を支持する(Tables 5 and 6)。
- 下流タスクでは、RepOpt-VGG は COCO 検出と Cityscapes セグメンテーションで RepVGG と同等の性能を示す(Table 7)。
- RepOpt-VGG は、構造的に再パラメータ化されたモデルより量子化挙動がはるかに穏やかで、INT8 PTQ で約 2.5% の精度低下のみを示す(Table 8)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。