Skip to main content
QUICK REVIEW

[논문 리뷰] Convolutional Bypasses Are Better Vision Transformer Adapters

Shibo Jie, Zhihong Deng|arXiv (Cornell University)|2022. 07. 14.
Domain Adaptation and Few-Shot Learning인용 수 62
한 줄 요약

Convpass는 ViT에 가벼운 학습 가능 합성회선 차단경로를 삽입하여 VTAB-1K 및 소샷 태스크에서 언어 지향 PETL 방법들보다 우수한 성능을 달성하고, 최소한의 학습 가능 매개변수로 강한 도메인 일반화를 보여준다.

ABSTRACT

The pretrain-then-finetune paradigm has been widely adopted in computer vision. But as the size of Vision Transformer (ViT) grows exponentially, the full finetuning becomes prohibitive in view of the heavier storage overhead. Motivated by parameter-efficient transfer learning (PETL) on language transformers, recent studies attempt to insert lightweight adaptation modules (e.g., adapter layers or prompt tokens) to pretrained ViT and only finetune these modules while the pretrained weights are frozen. However, these modules were originally proposed to finetune language models and did not take into account the prior knowledge specifically for visual tasks. In this paper, we propose to construct Convolutional Bypasses (Convpass) in ViT as adaptation modules, introducing only a small amount (less than 0.5% of model parameters) of trainable parameters to adapt the large ViT. Different from other PETL methods, Convpass benefits from the hard-coded inductive bias of convolutional layers and thus is more suitable for visual tasks, especially in the low-data regime. Experimental results on VTAB-1K benchmark and few-shot learning datasets show that Convpass outperforms current language-oriented adaptation modules, demonstrating the necessity to tailor vision-oriented adaptation modules for adapting vision models.

연구 동기 및 목표

  • 언어 지향 PETL 모듈과 ViT의 시각적 귀납 편향 사이의 불일치를 강조한다.
  • Convpass를 미리 학습된 가중치를 보존하면서 합성회선 귀납 편향을 추가하는 시각 지향 PETL 모듈로 제안한다.
  • Convpass의 효과를 VTAB-1K, 소샷 학습, 및 도메인 일반화 설정에서 입증한다.
  • Convpass가 학습 가능 매개변수를 더 적게 사용하면서 기존 PETL 방법들보다 우수한 성능을 낼 수 있음을 보여준다.]
  • method 군: ["Convpass를 ViT 블록에 평행하게 삽입되는 합성회선 Bottleneck 블록으로 제안하여 토큰의 2D 공간 구조를 재구성한다.", "3계층 Convpass: 1x1 채널 축소, 3x3 공간 합성회선, 1x1 채널 확장.", "토큰을 2D 패치로 취급하고 [cls] 토큰을 이미지로 간주하여 2D 구조를 복원한다.", "사전학습된 ViT 가중치를 고정하고 Convpass 모듈과 분류 헤드만 학습한다.", "Convpass를 MHSA/MLP 블록과 함께 평행하게 학습 가능한 경로를 보여주는 ViT의 해명된 관점으로 분석한다.", "비전 지향 Convpass와 언어 지향 PETL 모듈(VPT, Adapter, AdaptFormer, LoRA, NOAH)을 비교한다.", "ImageNet-21K에서 사전학습된 ViT-B/16과 추가 CLIP 기반 도메인 일반화 실험으로 VTAB-1K에서 평가한다."]
  • research_questions translate to Korean?
  • research_questions: ["Can vision-oriented adaptation modules outperform language-oriented PETL modules when fine-tuning ViT on visual tasks?", "Does introducing convolutional inductive bias via Convpass improve data efficiency, especially in low-data regimes (few-shot and VTAB-1K subsets)?", "How does Convpass affect domain generalization, including vision-language models like CLIP, compared to baseline PETL methods?"]
  • translated to Korean:
  • research_questions: ["비전 태스크에서 ViT를 미세조정할 때 시각 지향 적응 모듈이 언어 지향 PETL 모듈을 능가할 수 있는가?","Convpass를 통해 합성회선 귀납 편향을 도입하면 데이터 효율성이 향상되는가, 특히 저데이터 구간(소샷 및 VTAB-1K 하위 집합)에서?","Convpass가 CLIP와 같은 비전-언어 모델을 포함한 도메인 일반화에 어떤 영향을 미치는가, 기존 PETL 방법들과 비교하여?]

제안 방법

  • Convpass를 ViT 블록에 병렬로 삽입되는 합성회선 병목 블록으로 제안하여 토큰의 2D 공간 구조를 재구성한다.
  • 1x1 채널 축소, 3x3 공간 합성회선, 1x1 채널 확장을 포함하는 3계층 Convpass를 사용한다.
  • 토큰을 2D 패치로 취급하고 [cls] 토큰을 이미지로 간주하여 2D 구조를 복원한다.
  • 사전학습된 ViT 가중치를 고정하고 Convpass 모듈과 분류 헤드만 학습한다.
  • Convpass를 MHSA/MLP 블록과 함께 병렬로 학습 가능한 경로를 보이는 ViT의 해석적 관점으로 분석한다.
  • 비전 지향 Convpass를 언어 지향 PETL 모듈(VPT, Adapter, AdaptFormer, LoRA, NOAH)과 비교한다.
  • ImageNet-21K에서 사전학습된 ViT-B/16 및 추가 CLIP 기반 도메인 일반화 실험으로 VTAB-1K에서 평가한다.

실험 결과

연구 질문

  • RQ1Can vision-oriented adaptation modules outperform language-oriented PETL modules when fine-tuning ViT on visual tasks?
  • RQ2Does introducing convolutional inductive bias via Convpass improve data efficiency, especially in low-data regimes (few-shot and VTAB-1K subsets)?
  • RQ3How does Convpass affect domain generalization, including vision-language models like CLIP, compared to baseline PETL methods?

주요 결과

  • Convpass attn (Convpass inserted alongside MHSA) and Convpass (parallel to MHSA/MLP) achieve strong VTAB-1K performance, with Convpass attaining best average results among PETL methods.
  • Convpass attn achieves 12 state-of-the-art results out of 19 tasks on VTAB-1K, and Convpass (full) attains the best average performance, 1.1 percentage points higher than the previous SOTA (NOAH) across VTAB-1K tasks.
  • Convpass introduces roughly 0.33 million trainable parameters for ViT-B/16 (86M backbone), which is far smaller than full fine-tuning yet yields superior accuracy.
  • Convpass demonstrates strong few-shot learning gains across five fine-grained datasets, outperforming baselines in most shot settings, illustrating improved data efficiency.
  • In domain-generalization experiments with CLIP, Convpass_CLIP outperforms several CLIP-tailored PETL baselines on source and most target domains, showing robustness to domain shift.
  • Compared to backbone variants with inherent visual inductive bias (Swin, ConvNeXt), ViT with Convpass can surpass full fine-tuning of biased backbones, indicating Convpass effectively compensates for ViT’s lack of visual inductive bias.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.