QUICK REVIEW

[논문 리뷰] Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles

Chaitanya K. Ryali, Yuan-Ting Hu|arXiv (Cornell University)|2023. 06. 01.

CCD and CMOS Imaging Sensors인용 수 58

한 줄 요약

Hiera는 MAE로 사전학습된 간단한 계층적 비전 트랜스포머로, 기존의 비전 특화 모듈을 제거하고 이전의 계층적 모델보다 이미지와 비디오 작업에서 더 빠른 학습/추론과 더 높은 정확도를 달성합니다.

ABSTRACT

Modern hierarchical vision transformers have added several vision-specific components in the pursuit of supervised classification performance. While these components lead to effective accuracies and attractive FLOP counts, the added complexity actually makes these transformers slower than their vanilla ViT counterparts. In this paper, we argue that this additional bulk is unnecessary. By pretraining with a strong visual pretext task (MAE), we can strip out all the bells-and-whistles from a state-of-the-art multi-stage vision transformer without losing accuracy. In the process, we create Hiera, an extremely simple hierarchical vision transformer that is more accurate than previous models while being significantly faster both at inference and during training. We evaluate Hiera on a variety of tasks for image and video recognition. Our code and models are available at https://github.com/facebookresearch/hiera.

연구 동기 및 목표

계층적 트랜스포머에 추가된 비전 특화 모듈이 부피를 늘리고 모델의 속도를 저하시키는 것을 동기로 삼습니다.
강력한 MAE 사전학습이 공간적 편향을 학습시켜 더 단순한 아키텍처가 복잡한 선행 모델을 능가하도록 할 수 있음을 보입니다.
간소화된 계층적 ViT가 이미지 및 비디오 작업에서 정확도를 유지하거나 향상시키면서 학습 및 추론 속도에서 더 빠를 수 있음을 시연합니다.

제안 방법

기본 계층적 ViT(MViTv2)에서 시작하여 비필수 비전 특화 구성 요소를 제거합니다.
계층적 모델에 맞춘 마스크 단위의 커스텀 개념을 사용한 Masked Autoencoder(MAE) 사전학습을 채택합니다.
MAE 사전학습 동안 효율성을 위해 초기 단계의 전역 KV 풀링을 대체하는 Mask Unit Attention를 도입합니다.
희소 MAE 사전학습 중 겹침(overlap) 문제를 피하기 위한 분리 및 패딩(trick)을 사용하여 컨볼루션 없이도 효율적인 학습을 가능하게 합니다.
MAE 사전학습 하에서 성능을 유지하면서 상대 위치 임베딩, 컨볼루션 및 다수의 부가 요소를 제거합니다.
정밀한 FLOPs, 파라미터 수, 스테이지 구성을 갖춘 여러 Hiera 구성(T, S, B, B+, L, H)을 제공합니다.

실험 결과

연구 질문

RQ1MAE로 사전학습했을 때 순수하게 트랜스포머 기반의 계층적 비전 모델이 불필요한 요소 없이 최첨단 결과를 달성할 수 있는가?
RQ2MAE 사전학습이 단순화된 계층 아키텍처와 어떻게 상호작용하여 이미지 및 비디오 작업에서 속도와 정확도 향상을 제공하는가?
RQ3MAE를 계층형 ViT에 적용할 때 컨볼루션, 어텐션 잔차, 특수 풀링을 제거하는 과정의 트레이드오프는 무엇인가?
RQ4다양한 MAE 사전학습 설정(마스크 비율, 디코더 깊이, 드롭 패스, 사전학습 길이)이 이미지 대 비디오에서의 성능에 어떻게 영향을 미치는가?

주요 결과

Hiera는 이미지 및 비디오 작업에서 이전 최첨단 계층적 모델보다 성능이 우수하면서 학습 및 추론 속도가 현저히 빠릅니다.
MAE 사전학습은 비교적 간단한 아키텍처가 더 복잡하고 컨볼루션 중심의 모델에 비해 경쟁력 있거나 더 우수한 정확도를 달성하도록 합니다.
MAE를 사용하면서 컨볼루션, 시프트 윈도우, 분해된 상대 위치 임베딩을 제거하면 강력한 성능의 매우 단순한 모델이 됩니다.
Mask Unit Attention은 정확도에 지장을 주지 않으면서 비디오에서 상당한 처리량 향상을 제공하여 기본 MViTv2 아키텍처에 비해 큰 속도 향상에 기여합니다.
변형들에 걸쳐 Hiera-L은 MAE로 ImageNet-1K에서 86.1% top-1, 비디오에서 Kinetics-700에서 88.3%를 달성하면서도 비슷한 기준선보다 더 작고 빠릅니다.
전이 태스크에서 Hiera 변형은 iNaturalist와 Places 데이터셋에서 MAE로 사전학습된 ViT를 지속적으로 능가합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.