[논문 리뷰] Vision Transformers with Hierarchical Attention
이 논문은 계층적 다중헤드 자기주의(Hierarchical Multi-Head Self-Attention, H-MHSA)를 제안하며, 이는 이미지 패치 내 국소적 관계를 먼저 모델링하고, 그 다음 더 큰 패치로 통합된 후 전반적인 의존성을 모델링하는 방식으로 자기주의를 이원단계 계층적으로 계산하는 새로운 메커니즘이다. 각 수준에서 주의 집중 계산을 제한된 수의 토큰에 국한시킴으로써 H-MHSA는 계산 비용과 메모리 소비를 크게 줄이면서도 세밀한 세부 정보를 유지할 수 있으며, 이는 HAT-Net 계열이 이미지 분류, 의미 세분화, 객체 검출, 인스턴스 세분화 작업 전반에서 최신 기술 수준의 성능을 달성할 수 있도록 한다.
This paper tackles the high computational/space complexity associated with Multi-Head Self-Attention (MHSA) in vanilla vision transformers. To this end, we propose Hierarchical MHSA (H-MHSA), a novel approach that computes self-attention in a hierarchical fashion. Specifically, we first divide the input image into patches as commonly done, and each patch is viewed as a token. Then, the proposed H-MHSA learns token relationships within local patches, serving as local relationship modeling. Then, the small patches are merged into larger ones, and H-MHSA models the global dependencies for the small number of the merged tokens. At last, the local and global attentive features are aggregated to obtain features with powerful representation capacity. Since we only calculate attention for a limited number of tokens at each step, the computational load is reduced dramatically. Hence, H-MHSA can efficiently model global relationships among tokens without sacrificing fine-grained information. With the H-MHSA module incorporated, we build a family of Hierarchical-Attention-based Transformer Networks, namely HAT-Net. To demonstrate the superiority of HAT-Net in scene understanding, we conduct extensive experiments on fundamental vision tasks, including image classification, semantic segmentation, object detection, and instance segmentation. Therefore, HAT-Net provides a new perspective for vision transformers. Code and pretrained models are available at https://github.com/yun-liu/HAT-Net.
연구 동기 및 목표
- 이미지 패치로 인해 긴 시퀀스 길이가 발생하는 기존 시각 트랜스포머에서 다중헤드 자기주의(MHSA)의 높은 계산 및 메모리 복잡도 문제를 해결하기 위해.
- 세밀한 공간적 세부 정보를 손상시키지 않고도 시각 트랜스포머에서 국소적 및 전반적 의존성을 효율적으로 모델링하기 위해.
- 기존 방법보다 우수한 성능을 내는 유연하고 효율적이며 확장 가능한 트랜스포머 아키텍처를 설계하기 위해.
- 이미지 분류, 의미 세분화, 객체 검출, 인스턴스 세분화 등 다양한 시각 벤치마크에서의 광범위한 실험을 통해 계층적 주의의 효과성을 입증하기 위해.
제안 방법
- 입력 이미지는 패치로 나뉘며, 각 패치는 토큰으로 간주되어 주의 계산을 위한 초기 시퀀스를 형성한다.
- 작은 패치 그룹 내에서 국소적 자기주의가 계산되며(파라미터 G1로 제어됨), 세밀한 국소적 관계를 포착한다.
- 작은 패치들이 다운샘플링을 통해 더 큰 패치로 통합되어(파라미터 G2로 제어됨), 전반적 주의 계산을 위한 토큰 수가 감소한다.
- 통합된 더 큰 토큰에 대해 전반적 자기주의가 적용되어 이미지 전반에 걸친 장거리 의존성을 모델링한다.
- 국소적 및 전반적 주의 기반 특징이 연결되고 집계되어 다층적 표현을 가진 최종 특징을 형성한다.
- H-MHSA 모듈은 깊이 분리형 컨볼루션과 SiLU 활성화 함수를 사용하여 효율성과 성능을 높인 HAT-Net이라는 네트워크 패밀리에 통합된다.
실험 결과
연구 질문
- RQ1계층적 주의 메커니즘이 시각 트랜스포머의 계산 비용을 효과적으로 줄일 수 있을까, 그리고 성능을 유지하거나 향상시킬 수 있을까?
- RQ2국소적 및 전반적 주의를 계층적으로 조합함으로써 시각 트랜스포머의 특징 표현에 어떤 영향을 미칠까?
- RQ3H-MHSA가 기존의 창문 기반 또는 다운샘플링 기반 접근 방식보다 하류 시각 작업에서 얼마나 뛰어난 성능을 보일 수 있을까?
- RQ4정확도와 효율성의 균형을 고려할 때 국소 격자 크기(G1)와 다운샘플링 비율(G2)의 최적 설정은 무엇일까?
주요 결과
- HAT-Net에 H-MHSA를 적용한 결과, 300 에포크 동안 훈련한 조건에서 ImageNet-1K에서 82.6%의 top-1 정확도를 달성하여 동일한 훈련 조건에서 PVT를 능가했다.
- HAT-Net-Small 버전은 ADE20K에서 의미 세분화 작업에서 45.7%의 mIoU를 기록하여 다양한 작업에 대한 강력한 일반화 능력을 보였다.
- MS-COCO에서의 객체 검출 작업에서 HAT-Net-Small은 45.7%의 APb, 67.8%의 APb50, 44.7%의 APb75를 기록하여 FLOPs를 줄이면서도 뛰어난 성능을 보였다.
- 기본 트랜스포머보다 H-MHSA가 이미지 분류, 의미 세분화, 객체 검출, 인스턴스 세분화 등 모든 평가된 작업에서 성능 향상을 이뤘다.
- GELU 대신 SiLU 활성화 함수를 사용함으로써 GPU 메모리 소비를 23.8GB에서 20.2GB로 줄였으며, 성능은 유지되거나 약간 향상되었다.
- 기본 설정인 G1 = 8,8,8 및 G2 = 16,8,4는 다양한 설정에서 정확도와 계산 효율성 사이의 유리한 트레이드오프를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.