[論文レビュー] Towards Efficient Visual Adaption via Structural Re-parameterization
RepAdapterは giant vision models に対して逐次的で構造的に再パラメータ化可能なビジュアルアダプタを導入し、推論オーバーヘッドゼロを実現するとともに、27データセットを横断して最先端のPETL法を上回る。
Parameter-efficient transfer learning (PETL) is an emerging research spot aimed at inexpensively adapting large-scale pre-trained models to downstream tasks. Recent advances have achieved great success in saving storage costs for various pre-trained models by updating a small number of parameters instead of full tuning. However, we notice that most existing PETL methods still incur non-negligible latency during inference. In this paper, we propose a parameter-efficient and computational friendly adapter for giant vision models, called RepAdapter. Specifically, we first prove that common adaptation modules can also be seamlessly integrated into most giant vision models via our structural re-parameterization, thereby achieving zero-cost during inference. We then investigate the sparse design and effective placement of adapter structure, helping our RepAdaper obtain other advantages in terms of parameter efficiency and performance. To validate RepAdapter, we conduct extensive experiments on 27 benchmark datasets of three vision tasks, i.e., image and video classifications and semantic segmentation. Experimental results show the superior performance and efficiency of RepAdapter than the state-of-the-art PETL methods. For instance, RepAdapter outperforms full tuning by +7.2% on average and saves up to 25% training time, 20% GPU memory, and 94.6% storage cost of ViT-B/16 on VTAB-1k. The generalization ability of RepAdapter is also well validated by a bunch of vision models. Our source code is released at https://github.com/luogen1996/RepAdapter.
研究の動機と目的
- デプロイ時のストレージと計算量を削減するために、大規模ビジョンモデル向けのパラメータ効率的転移学習(PETL)を動機づける。
- 一般的なビジュアルアダプタが構造的再パラメータ化を通じて事前学習済みモデルに統合可能であり、追加の推論コストを発生させないことを示す。
- パラメータ効率と性能向上のためのアダプタの疎な設計と配置を検討する。
- 多様なビジョンタスク(画像/動画分類、セマンティックセグメンテーション)とモデルファミリに対するRepAdapterの有効性を実証する。
- ConvNeXt、ViT、Swin-Transformer、CLIPなどのバックボーンに対する汎用性を検証する。
提案手法
- トレーニング時に追加される軽量アダプタであるRepAdapterを提案し、近傍の射影ウェイトへ再パラメータ化することで推論コストゼロを実現する。
- アダプタから非線形活性化を削除して線形再パラメータ化を可能にし、推論時には等価な線形射影を得る。
- 逐次的なアダプタブロックを事前学習済みウェイト(W0, b0)へ再パラメータ化してWrepとbrepを形成し、Attention(MHA)、FFN、畳み込みへ組み込む。
- 上向き射影がグループ化(Gsグループ)された密/疎アダプタ設計を導入し、パラメータを削減する。
- アダプタの配置を体系的に研究し、ニューラルモジュール(MHA/FFN)の前に挿入する事前配置がViTや他のバックボーンでより良い性能をもたらすことを示す。
- 3つのビジョンタスク(画像/動画分類、セマンティックセグメンテーション)でRepAdapterを評価し、複数のバックボーン(ViT、ConvNeXt、Swin、CLIP)に跨って評価する。
![Figure 1 : Performance comparison of our RepAdpater and existing PETL methods [ 19 , 16 , 2 , 18 , 38 ] on VTAB-1K. The vision model is ViT-B/16 and the inference speed is measured on a NVIDIA 3090 GPU with a batch size of 1. Most existing PETL methods incur non-negligible GPU latency during inferen](https://ar5iv.labs.arxiv.org/html/2302.08106/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1線形化された逐次アダプタを事前学習済みビジョンモデルに追加コストなしで再パラメータ化できるか?
- RQ2疎でグループ化されたアダプタ設計はパラメータ数を減らしつつ性能を維持できるか?
- RQ3大規模ビジョンモデルにおけるアダプタの配置はどのような影響を及ぼし、どの配置が最大の効果をもたらすか?
- RQ4RepAdapterは異なるアーキテクチャやタスク(画像/動画分類、セグメンテーション、CLIPベースの few-shot/ドメイン一般化)にどの程度一般化するか?
- RQ5RepAdapterは精度と効率性の点で既存のPETL法とどのように比較されるか?
主な発見
- 再パラメータ化後、推論時に追加の計算を発生させない。
- 逐次配置された線形化アダプタは、性能低下なしに事前学習済みウェイトへ統合できる。
- 疎(グループ化)設計によりパラメータを約25%削減しつつ精度を維持または向上。
- 事前挿入(MHA/FFNの前)は、ViTおよび他のバックボーン全体で事後挿入より性能が良い。
- RepAdapterはVTAB-1kで最先端のPETL手法を上回り、CLIP、ConvNeXt、Swin、ViT、動画/セグメンテーションタスクへ良く一般化する。
- 推論時、RepAdapterは追加のFLOPsを示さず、他の多くの競合PETL手法とは異なるが、精度は優れているか競争力がある。
![Figure 2 : Comparison of existing PETL methods [ 2 , 19 , 18 ] and our RepAdapter . RepAdapter is deployed in a sequential manner, but it can be completely re-parameterized into the vision models during inference, enabling zero additional computational overhead. Its structure is also more lightweigh](https://ar5iv.labs.arxiv.org/html/2302.08106/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。