QUICK REVIEW

[논문 리뷰] Transformer in Convolutional Neural Networks

Yun Liu, Guolei Sun|arXiv (Cornell University)|2021. 06. 06.

Advanced Neural Network Applications참고 문헌 62인용 수 46

한 줄 요약

이 논문은 시각 트랜스포머에서 공간 격자에 걸쳐 계층적으로 특징 관계를 학습함으로써 계산 복잡도를 감소시키는 Hierarchical Multi-Head Self-Attention (H-MHSA)를 제안한다. 작은 이미지 패치들을 점진적으로 더 큰 격자로 병합하고, 각 그룹을 단일 토큰으로 간주함으로써 H-MHSA는 효율적인 어텐션 계산을 가능하게 하면서도 높은 정확도를 유지한다. 이에 기반해 새로운 CNN 백본 아키텍처인 TransCNN가 제안되었으며, 이는 최신 이미지 인식 성능을 달성한다.

ABSTRACT

We tackle the low-efficiency flaw of vision transformer caused by the high computational/space complexity in Multi-Head Self-Attention (MHSA). To this end, we propose the Hierarchical MHSA (H-MHSA), whose representation is computed in a hierarchical manner. Specifically, our H-MHSA first learns feature relationships within small grids by viewing image patches as tokens. Then, small grids are merged into larger ones, within which feature relationship is learned by viewing each small grid at the preceding step as a token. This process is iterated to gradually reduce the number of tokens. The H-MHSA module is readily pluggable into any CNN architectures and amenable to training via backpropagation. We call this new backbone TransCNN, and it essentially inherits the advantages of both transformer and CNN. Experiments demonstrate that TransCNN achieves state-of-the-art accuracy for image recognition. Code and pretrained models are available at this https URL. This technical report will keep updating by adding more experiments.

연구 동기 및 목표

시각 트랜스포머에서 Multi-Head Self-Attention (MHSA)의 높은 계산 및 메모리 복잡도 문제를 해결하기 위해.
대표성 능력을 유지하면서 계산 부담을 줄이는 더 효율적인 어텐션 메커니즘을 설계하기 위해.
구조적 개조 없이도 새로운 메커니즘을 CNN 아키텍처에 통합하기 위해.
하이브리드 CNN-Transformer 백본을 사용하여 이미지 인식에서 최신 성능을 달성하기 위해.
제안된 아키텍처에 대해 백프로파게이션을 통한 엔드 투 엔드 학습을 가능하게 하기 위해.

제안 방법

H-MHSA는 먼저 국소 격자 내에서 토큰으로 간주되는 작은 이미지 패치들을 처리함으로써 계층적으로 어텐션을 계산한다.
격자 내 관계를 학습한 후, 인접한 작은 격자들이 더 큰 격자로 병합되며, 다음 수준의 어텐션 계산에서 각 그룹이 단일 토큰으로 간주된다.
이 계층적 병합은 각 수준에서 토큰 수를 줄이며, 점진적으로 계산 복잡도를 감소시킨다.
H-MHSA 모듈은 기존 CNN 아키텍처에 즉시 통합할 수 있도록 설계되어 있으며, 그들의 인덕티브 바이어스를 유지한다.
전체 아키텍처인 TransCNN은 CNN 특징 추출과 계층적 자기어텐션을 조합하여 표현 학습을 향상시킨다.
표준 백프로파게이션을 사용하여 엔드 투 엔드로 학습되며, CNN과 어텐션 구성 요소의 공동 최적화를 가능하게 한다.

실험 결과

연구 질문

RQ1계층적 어텐션 메커니즘은 성능을 희생시키지 않고 시각 트랜스포머의 자기어텐션 계산 비용을 줄일 수 있는가?
RQ2H-MHSA의 계층적 특징 집합 방식은 표준 MHSA에 비해 효율성과 정확도 측면에서 어떻게 비교되는가?
RQ3TransCNN과 같은 하이브리드 CNN-Transformer 백본이 순수한 CNN 또는 시각 트랜스포머 모델보다 얼마나 뛰어난 성능을 내는가?
RQ4H-MHSA 모듈은 표준 CNN 학습 파이프라인과 백프로파게이션과 호환되는가?
RQ5계층적 토큰 병합이 표현 품질과 모델 일반화 능력에 어떤 영향을 미치는가?

주요 결과

TransCNN는 이미지 인식 벤치마크에서 최신 성능을 달성하며 기존 모델을 능가한다.
계층적 어텐션 메커니즘이 표준 MHSA에 비해 계산 복잡도를 크게 감소시킨다.
H-MHSA는 격자 병합을 통해 점진적으로 토큰 수를 줄임으로써 효율적인 어텐션 계산을 가능하게 한다.
제안된 TransCNN 아키텍처는 표준 CNN 학습 및 백프로파게이션과 호환된다.
성능 향상으로부터 입증되듯이, 이 방법은 효율성을 향상시키면서도 강력한 대표성 능력을 유지한다.
코드와 사전 학습된 모델이 공개되어 있어 재현성과 향후 연구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.