Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Efficient Visual Adaption via Structural Re-parameterization

Gen Luo, Minglang Huang|arXiv (Cornell University)|2023. 02. 16.
Advanced Neural Network Applications인용 수 28
한 줄 요약

RepAdapter는 거대한 비전 모델용 순차적이고 구조적으로 재매개변수화 가능한 시각 어댑터를 제시하여 27개 데이터셋에서 최첨단 PETL 방법들을 능가하면서 추론 오버헤드 없이 작동한다.

ABSTRACT

Parameter-efficient transfer learning (PETL) is an emerging research spot aimed at inexpensively adapting large-scale pre-trained models to downstream tasks. Recent advances have achieved great success in saving storage costs for various pre-trained models by updating a small number of parameters instead of full tuning. However, we notice that most existing PETL methods still incur non-negligible latency during inference. In this paper, we propose a parameter-efficient and computational friendly adapter for giant vision models, called RepAdapter. Specifically, we first prove that common adaptation modules can also be seamlessly integrated into most giant vision models via our structural re-parameterization, thereby achieving zero-cost during inference. We then investigate the sparse design and effective placement of adapter structure, helping our RepAdaper obtain other advantages in terms of parameter efficiency and performance. To validate RepAdapter, we conduct extensive experiments on 27 benchmark datasets of three vision tasks, i.e., image and video classifications and semantic segmentation. Experimental results show the superior performance and efficiency of RepAdapter than the state-of-the-art PETL methods. For instance, RepAdapter outperforms full tuning by +7.2% on average and saves up to 25% training time, 20% GPU memory, and 94.6% storage cost of ViT-B/16 on VTAB-1k. The generalization ability of RepAdapter is also well validated by a bunch of vision models. Our source code is released at https://github.com/luogen1996/RepAdapter.

연구 동기 및 목표

  • 배포 중 저장소 및 계산 자원을 줄이기 위해 대규모 비전 모델에서 매개변수 효율적 전이 학습(PETL)을 고무한다.
  • 일반적인 시각 어댑터가 구조적 재매개변수화를 통해 추가 추론 비용 없이 사전 학습된 모델에 병합될 수 있음을 보여준다.
  • 매개변수 효율성과 성능을 향상시키기 위한 어댑터의 희소 설계 및 배치를 조사한다.
  • 이미지/비디오 분류, 의미론적 분할 등 다양한 비전 작업과 모델 계통에서 RepAdapter의 효과를 입증한다.
  • ConvNeXt, ViT, Swin-Transformer, CLIP와 같은 백본 전반에 걸친 일반화를 확인한다.

제안 방법

  • 학습 시 추가를 인근 투영 가중치로 재매개변수화할 수 있는 경량 어댑터인 RepAdapter를 제안한다. 이는 추론 비용 제로를 가능하게 한다.
  • 어댑터에서 비선형 활성화를 제거하여 선형 재매개변수화를 가능하게 하고, 추론 시 등가적인 선형 투영을 산출한다.
  • 순차적 어댑터 블록을 사전 학습된 가중치(W0, b0)로 재매개변수화하여 주입되는 어텐션(MHA), FFN, 합성곱에 포함될 Wrep와 brep를 형성한다.
  • 매개변수 감소를 위해 업프로젝션이 그룹화된(Gs 그룹) 밀집-희소 어댑터 설계를 도입한다.
  • 어댑터 배치를 체계적으로 연구하여 신경 모듈(MHA/FFN) 이전에 사전 삽입하는 것이 ViT 및 기타 백본에서 더 나은 성능을 보임을 보여준다.
  • 세 가지 비전 작업(image/video classification, semantic segmentation)에서 RepAdapter를 평가하고 다수의 백본(ViT, ConvNeXt, Swin-Transformer, CLIP)에서의 성능을 살핀다.
Figure 1 : Performance comparison of our RepAdpater and existing PETL methods [ 19 , 16 , 2 , 18 , 38 ] on VTAB-1K. The vision model is ViT-B/16 and the inference speed is measured on a NVIDIA 3090 GPU with a batch size of 1. Most existing PETL methods incur non-negligible GPU latency during inferen
Figure 1 : Performance comparison of our RepAdpater and existing PETL methods [ 19 , 16 , 2 , 18 , 38 ] on VTAB-1K. The vision model is ViT-B/16 and the inference speed is measured on a NVIDIA 3090 GPU with a batch size of 1. Most existing PETL methods incur non-negligible GPU latency during inferen

실험 결과

연구 질문

  • RQ1선형화된 순차 어댑터를 사전 학습된 비전 모델에 재매개변수화하여 추론 비용을 추가하지 않고 가능할까?
  • RQ2희소하고 그룹화된 어댑터 설계가 매개변수 수를 줄이면서도 성능을 유지할 수 있을까?
  • RQ3대형 비전 모델에서 어댑터 배치의 영향은 무엇이며 어떤 위치가 이득을 최대화하는가?
  • RQ4RepAdapter가 다양한 아키텍처와 작업(이미지/비디오 분류, 분할, CLIP 기반 페어샷/도메인 일반화)에서 어떻게 일반화되는가?
  • RQ5정확도와 효율성에서 기존 PETL 방법들과 RepAdapter를 어떻게 비교되는가?

주요 결과

  • 재매개변수화 후 추론 중 추가 계산이 필요하지 않다.
  • 순차적으로 배치된 선형화된 어댑터는 성능 저하 없이 사전 학습 가중치에 병합될 수 있다.
  • 희소(그룹화된) 설계는 매개변수를 약 25% 감소시키며 정확도는 유지되거나 향상된다.
  • 사전 삽입(MHA/FFN 이전) 배치가 ViT 및 기타 백본에서 후삽입보다 더 나은 성능을 낸다.
  • RepAdapter는 VTAB-1k에서 최첨단 PETL 방법들을 능가하고 CLIP, ConvNeXt, Swin, ViT 및 비디오/분할 작업에 잘 일반화한다.
  • 추론 시 RepAdapter는 추가 FLOPs가 나타나지 않으며, 다른 많은 PETL 방법들처럼 우수하거나 경쟁력 있는 정확도를 달성한다.
Figure 2 : Comparison of existing PETL methods [ 2 , 19 , 18 ] and our RepAdapter . RepAdapter is deployed in a sequential manner, but it can be completely re-parameterized into the vision models during inference, enabling zero additional computational overhead. Its structure is also more lightweigh
Figure 2 : Comparison of existing PETL methods [ 2 , 19 , 18 ] and our RepAdapter . RepAdapter is deployed in a sequential manner, but it can be completely re-parameterized into the vision models during inference, enabling zero additional computational overhead. Its structure is also more lightweigh

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.