Skip to main content
QUICK REVIEW

[논문 리뷰] Refiner: Refining Self-attention for Vision Transformers

Daquan Zhou, Yujun Shi|arXiv (Cornell University)|2021. 06. 07.
Advanced Neural Network Applications참고 문헌 55인용 수 41
한 줄 요약

Refiner는 주의 확장과 분산 로컬 주의로 Vision Transformers의 self-attention 맵을 직접 다듬어 데이터 효율성을 높이고, 100M 파라미터 미만으로 최첨단 결과를 달성합니다.

ABSTRACT

Vision Transformers (ViTs) have shown competitive accuracy in image classification tasks compared with CNNs. Yet, they generally require much more data for model pre-training. Most of recent works thus are dedicated to designing more complex architectures or training methods to address the data-efficiency issue of ViTs. However, few of them explore improving the self-attention mechanism, a key factor distinguishing ViTs from CNNs. Different from existing works, we introduce a conceptually simple scheme, called refiner, to directly refine the self-attention maps of ViTs. Specifically, refiner explores attention expansion that projects the multi-head attention maps to a higher-dimensional space to promote their diversity. Further, refiner applies convolutions to augment local patterns of the attention maps, which we show is equivalent to a distributed local attention features are aggregated locally with learnable kernels and then globally aggregated with self-attention. Extensive experiments demonstrate that refiner works surprisingly well. Significantly, it enables ViTs to achieve 86% top-1 classification accuracy on ImageNet with only 81M parameters.

연구 동기 및 목표

  • 아키텍처를 바꾸거나 학습 트릭만으로는 해결되지 않는 Vision Transformers의 데이터 효율성 격차를 self-attention 메커니즘을 다듬음으로써 해결한다.
  • self-attention 맵의 다양성을 증가시키고 로컬 패턴을 도입하여 깊은 ViT에서의 과도한 매끄러움을 완화한다.
  • ViT 블록의 일반적인 self-attention를 대체할 수 있는 간단하고 즉시 적용 가능한 모듈(Refiner)을 제안한다.
  • ImageNet에서의 개선을 시연하고 NLP (GLUE) 태스크로의 일반화도 보여준다.
  • 토큰 집계에서 글로벌 어텐션과 로컬 컨텍스트 간의 상호 작용에 대한 통찰을 제공한다.

제안 방법

  • 주의 확장을 도입: 임베딩 차원을 감소시키지 않으면서 주의 맵의 수를 효과적으로 늘리기 위해 다중-head 주의 맵을 더 높은 차원 공간으로 투영한다.
  • 선형 프로젝션 W_A를 사용하여 A를 H' 주의 맵으로 확장하고(H' > H), 확장된 맵으로 집계한 뒤 1x1 프로젝션으로 다시 H로 감소시키다.
  • 확장된 주의 맵에 헤드별 공간 컨볼루션을 적용하여 로컬 패턴을 보강하고, distributed local attention(DLA) 메커니즘을 얻는다.
  • DLA가 글로벌 컨텍스트 모델링과 로컬 패턴 강화을 결합하여 과도한 매끄러움을 완화하고 토큰 구분성을 향상시킨다.
  • 일반적인 self-attention 블록을 Refiner 모듈로 교체하여 Refined-ViT를 얻고, ViT 블록에 즉시 적용 가능한 향상을 제공한다.
  • DLA 이후 주의 맵의 추가 축소를 통해 계산 비용을 관리하면서 정확도를 보존하는 것을 보여준다.

실험 결과

연구 질문

  • RQ1확장과 로컬 패턴 보강을 통해 self-attention 맵을 정제하면 ViT의 데이터 효율성과 정확도를 향상시킬 수 있는가?
  • RQ2분산 로컬 어텐션이 다양한 ViT 아키텍처에서 표준 self-attention보다 이점을 제공하는가?
  • RQ3주의 맵을 확장한 뒤 다시 축소하는 것이 모델 성능과 수렴 속도에 미치는 영향은 무엇인가?
  • RQ4Refiner의 이점이 NLP 트랜스포머(BERT 등) 및 다른 비전-언어 또는 NLP 벤치마크로도 전이되는가?

주요 결과

  • Refiner는 동일 학습 방식에서 ImageNet에서 ViT-Base의 top-1 정확도를 1.7% 향상시키며 메모리 오버헤드는 거의 없다.
  • 주의 확장만으로 확장 비율이 1에서 6으로 올라갈수록 성능이 향상되며, top-1은 82.3%에서 83.0%로 증가하고 수렴도 빨라진다.
  • Distributed Local Attention(DLA)은 ViT 변형 전체에서 상시 top-1 정확도를 1.2%에서 1.7%까지 향상시키며, 크기 증가가 미미하다.
  • Refined-ViT-S는 ImageNet에서 83.6% top-1을 달성(25M 파라미터), 같은 설정에서 DeiT-S보다 3.7% 더 우수하다.
  • Refined-ViT-M은 384 입력에서 85.6% top-1(384-dim, 55M 파라미터)에 도달, CaiT-S36보다 0.2% 우위이면서 계산량은 더 작고, Refined-ViT-448은 100M 미만 파라미터로 86%에 도달하여 이러한 모델들 사이에서 새로운 최첨단 성능을 제시한다.
  • RFC(수용 영역 보정)를 적용하면 미세 조정 없이도 여러 SOTA 모델에서 ImageNet top-1을 약 0.11% 더 높일 수 있으며, Refiner의 이점은 NLP(GLUE) 태스크로 확장되어 강력한 베이스라인 대비 평균 점수를 약 1% 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.