QUICK REVIEW

[논문 리뷰] Scalable Visual Transformers with Hierarchical Pooling

Zizheng Pan, Bohan Zhuang|arXiv (Cornell University)|2021. 03. 19.

Advanced Neural Network Applications참고 문헌 47인용 수 28

한 줄 요약

이 논문은 계층적 풀링을 통해 시퀀스 길이와 계산 비용을 점진적으로 감소시켜 CNN의 계층적 특징 학습을 모방하는 확장 가능한 비전 트랜스포머 아키텍처인 계층적 시각 트랜스포머(HVT)를 제안한다. FLOPs를 증가시키지 않으면서도 높은 모델 용량을 유지함으로써, 기존 기준과 유사한 FLOPs로 ImageNet과 CIFAR-100에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

The recently proposed Visual image Transformers (ViT) with pure attention have achieved promising performance on image recognition tasks, such as image classification. However, the routine of the current ViT model is to maintain a full-length patch sequence during inference, which is redundant and lacks hierarchical representation. To this end, we propose a Hierarchical Visual Transformer (HVT) which progressively pools visual tokens to shrink the sequence length and hence reduces the computational cost, analogous to the feature maps downsampling in Convolutional Neural Networks (CNNs). It brings a great benefit that we can increase the model capacity by scaling dimensions of depth/width/resolution/patch size without introducing extra computational complexity due to the reduced sequence length. Moreover, we empirically find that the average pooled visual tokens contain more discriminative information than the single class token. To demonstrate the improved scalability of our HVT, we conduct extensive experiments on the image classification task. With comparable FLOPs, our HVT outperforms the competitive baselines on ImageNet and CIFAR-100 datasets.

연구 동기 및 목표

추론 중에 전체 길이의 패치 시퀀스를 유지하는 표준 ViT 모델의 비효율성을 해결하기 위해, 중복 계산을 줄이기 위함.
계산 복잡도를 증가시키지 않고 깊이, 너비, 해상도, 패치 크기의 모델 확장을 가능하게 하기 위함.
더 유의미한 정보를 담고 있는 풀링된 시각 토큰으로 단일 클래스 토큰을 대체하거나 보완하여 특징 표현을 향상시키기 위함.
기존 방법과 비교하여 유사한 FLOPs로 더 높은 성능을 달성할 수 있음을 입증하기 위함.

제안 방법

시공간 차원을 평균 풀링하여 시각 토큰의 시퀀스 길이를 점진적으로 감소시키는 계층적 풀링 레이어를 도입하며, CNN의 다운샘플링과 유사하게 작동한다.
공간 차원을 따라 평균 풀링을 적용하여 시퀀스를 압축함으로써 계산 비용을 감소시키면서도 분류에 도움이 되는 특징을 유지한다.
단일 클래스 토큰보다 더 많은 분류적 정보를 담고 있는 것으로 실험적으로 입증된 풀링된 시각 토큰으로 클래스 토큰을 대체하거나 보완한다.
다양한 해상도에서 다중 스테이지의 풀링을 적용하여 다중 척도 표현을 구축하는 계층적 아키텍처를 설계한다.
감소된 시퀀스 길이 덕분에 깊이, 너비, 해상도를 늘림으로써 높은 모델 용량을 유지하면서도 FLOPs 증가를 방지한다.

실험 결과

연구 질문

RQ1비전 트랜스포머에서 계층적 풀링을 적용하면 성능을 저하시키지 않고도 시퀀스 길이와 계산 비용을 줄일 수 있는가?
RQ2풀링된 시각 토큰으로 클래스 토큰을 대체하거나 보완하면 특징의 분류 능력이 향상되는가?
RQ3깊이, 너비, 해상도, 패치 크기의 모델 용량을 늘일 수 있는가, 이때 FLOPs는 증가하지 않도록 하는가?
RQ4기본 성능 기준에서 HVT는 최신 기술 수준의 ViT 및 CNN 기준 모델과 비교해 정확도와 FLOPs 측면에서 어떻게 성능을 내는가?

주요 결과

유사한 FLOPs로 HVT는 ImageNet 데이터셋에서 경쟁 기준 모델들을 능가하는 성능을 보이며, 확장성과 정확도 향상을 입증한다.
CIFAR-100에서 HVT는 유사한 FLOPs로 최신 기술 수준의 성능을 달성하여, 더 작은 규모의 데이터셋에서도 효과적임을 확인한다.
실험적으로 평균 풀링된 시각 토큰이 단일 클래스 토큰보다 더 많은 분류적 정보를 담고 있음을 입증하여, 설계 선택의 타당성을 뒷받침한다.
계층적 풀링 메커니즘이 감소된 시퀀스 길이 덕분에 계산 비용 증가 없이 차원별로 모델을 확장할 수 있도록 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.