QUICK REVIEW

[논문 리뷰] Aggregating Nested Transformers.

Zizhao Zhang, Han Zhang|arXiv (Cornell University)|2021. 05. 26.

Advanced Neural Network Applications참고 문헌 64인용 수 56

한 줄 요약

NesT는 비중첩 이미지 블록에 국소 자기주의 메커니즘을 네스팅하고, 중요한 블록 집계 함수를 통해 이를 집계하여 블록 간 통신을 가능하게 하는 단순화된 계층적 비전 트랜스포머를 제안한다. 이 설계는 최대 57% 적은 파라미터로 최신 기준 성능을 달성하며, 수렴 속도도 빠르며, 단일 GPU를 사용해 6M 파라미터 모델이 96% 정확도를 달성하는 CIFAR-10에서 처음으로 학습을 완료한다.

ABSTRACT

Although hierarchical structures are popular in recent vision transformers, they require sophisticated designs and massive datasets to work well. In this work, we explore the idea of nesting basic local transformers on non-overlapping image blocks and aggregating them in a hierarchical manner. We find that the block aggregation function plays a critical role in enabling cross-block non-local information communication. This observation leads us to design a simplified architecture with minor code changes upon the original vision transformer and obtains improved performance compared to existing methods. Our empirical results show that the proposed method NesT converges faster and requires much less training data to achieve good generalization. For example, a NesT with 68M parameters trained on ImageNet for 100/300 epochs achieves $82.3\%/83.8\%$ accuracy evaluated on $224 imes 224$ image size, outperforming previous methods with up to $57\%$ parameter reduction. Training a NesT with 6M parameters from scratch on CIFAR10 achieves $96\%$ accuracy using a single GPU, setting a new state of the art for vision transformers. Beyond image classification, we extend the key idea to image generation and show NesT leads to a strong decoder that is 8$ imes$ faster than previous transformer based generators. Furthermore, we also propose a novel method for visually interpreting the learned model. Source code is available this https URL.

연구 동기 및 목표

아키텍처의 복잡성을 최소화하면서도 성능을 유지하거나 향상시키기 위해 계층적 비전 트랜스포머 아키텍처를 단순화하는 것.
내재된 트랜스포머에서 효과적인 블록 간 비국소 정보 흐름을 가능하게 하는 블록 집계의 역할을 탐구하는 것.
강력한 일반화를 위해 데이터 및 파라미터 요구량을 줄이는 것.
NesT 프레임워크를 이미지 생성 작업으로 확장하여 순차적 트랜스포머의 추론 속도를 향상시키는 것.
모델이 학습한 주의 메커니즘의 시각적 해석 방법을 새롭게 개발하는 것.

제안 방법

비중첩 이미지 패치에 기본적인 국소 자기주의 모듈을 네스팅하여 계층적 구조를 형성한다.
비인접한 이미지 블록 간 장거리 의존성을 가능하게 하는 블록 집계 함수를 도입한다.
원래 비전 트랜스포머의 최소한의 아키텍처 변경을 통해 주로 주의 헤드 설계가 아닌 집계에 중점을 둔다.
계층의 다양한 수준에서의 특징을 결합하는 다중 척도 특징 집계 전략을 사용한다.
인코더 및 디코더 헤드에 동일한 아키텍처를 적용하여 이미지 생성에의 적용 가능성을 확보한다.
학습된 특징 내 주의 패턴과 모델 동작을 해석하기 위한 새로운 시각화 방법을 제안한다.

실험 결과

연구 질문

RQ1블록 집계 함수는 내재된 트랜스포머에서 블록 간 정보 흐름에 어떤 영향을 미치는가?
RQ2최소한의 아키텍처 수정으로도 기존 비전 트랜스포머보다 더 적은 파라미터와 더 적은 데이터로 성능을 뛰어넘을 수 있는가?
RQ3CIFAR-10과 같은 작은 데이터셋에서 NesT가 처음부터 학습했을 때 얼마나 강력한 성능을 낼 수 있는가?
RQ4NesT 아키텍처는 이미지 생성 작업으로 효과적으로 확장될 수 있으며, 이전의 트랜스포머 기반 생성기와 비교해 속도와 품질 측면에서 어떻게 성능을 낼 수 있는가?
RQ5새로운 시각화 방법은 NesT 모델이 학습한 주의 패턴을 효과적으로 해석할 수 있는가?

주요 결과

68M 파라미터를 가진 NesT는 100 에포크 후 ImageNet에서 82.3%의 상위-1 정확도를 기록하고, 300 에포크 후 83.8%에 이를 정도로 이전 방법보다 최대 57%의 파라미터 감소로 성능을 뛰어넘었다.
CIFAR-10에서 처음부터 학습한 6M 파라미터의 NesT 모델은 단일 GPU를 사용해 96%의 정확도를 달성했으며, 이는 이 벤치마크에서 비전 트랜스포머의 새로운 최신 기준 성능을 수립했다.
NesT 모델은 기존 방법보다 수렴 속도가 더 빠르고, 특히 학습 데이터가 제한된 경우 더 잘 일반화된다.
이미지 생성으로 확장했을 때, NesT 기반 디코더는 이전의 트랜스포머 기반 생성기보다 8배 빠른 속도를 기록했으며, 강력한 생성 품질을 유지했다.
제안된 블록 집계 메커니즘은 효과적인 블록 간 통신을 가능하게 하여, 단순히 국소 주의 모듈을 나열하는 것보다 성능을 크게 향상시켰다.
새로운 시각화 방법은 의미 있는 주의 패턴을 성공적으로 드러내어 모델 내부의 추론 과정을 더 잘 이해할 수 있도록 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.