QUICK REVIEW

[논문 리뷰] SepViT: Separable Vision Transformer

Wei Li, Xing Wang|arXiv (Cornell University)|2022. 03. 29.

Advanced Neural Network Applications인용 수 31

한 줄 요약

SepViT는 깊이별 분리 가능한 자기주의(DPSA)와 윈도 토큰(window tokens), 그리고 그룹화된 자기주의(GSA)를 통해 단일 Transformer 블록에서 로컬-글로벌 상호작용을 달성하며, 유사한 ViT 대비 낮은 대기시간으로 강력한 정확도를 제공합니다.

ABSTRACT

Vision Transformers have witnessed prevailing success in a series of vision tasks. However, these Transformers often rely on extensive computational costs to achieve high performance, which is burdensome to deploy on resource-constrained devices. To alleviate this issue, we draw lessons from depthwise separable convolution and imitate its ideology to design an efficient Transformer backbone, i.e., Separable Vision Transformer, abbreviated as SepViT. SepViT helps to carry out the local-global information interaction within and among the windows in sequential order via a depthwise separable self-attention. The novel window token embedding and grouped self-attention are employed to compute the attention relationship among windows with negligible cost and establish long-range visual interactions across multiple windows, respectively. Extensive experiments on general-purpose vision benchmarks demonstrate that SepViT can achieve a state-of-the-art trade-off between performance and latency. Among them, SepViT achieves 84.2% top-1 accuracy on ImageNet-1K classification while decreasing the latency by 40%, compared to the ones with similar accuracy (e.g., CSWin). Furthermore, SepViT achieves 51.0% mIoU on ADE20K semantic segmentation task, 47.9 AP on the RetinaNet-based COCO detection task, 49.4 box AP and 44.6 mask AP on Mask R-CNN-based COCO object detection and instance segmentation tasks.

연구 동기 및 목표

효율적인 비전 Transformer를 동기부여하여 자원 제약 기기에 배치될 때 계산 비용을 줄입니다.
깊이별 분리 가능한 컨볼루션에서 영감을 받아 로컬-글로벌 상호작용을 윈도우 내에서 가능하게 하는 경량화된 Transformer 백본을 설계합니다.
윈도우 토큰 임베딩과 그룹화된 자기주의를 도입하여 최소한의 오버헤드로 전역 윈도우 수준의 상호작용을 가능하게 합니다.
분류, 세그멘테이션, 탐지 작업에서 성능과 지연 시간의 최적의 균형을 달성하는 최신 결과를 보여줍니다.

제안 방법

윈도우 내에서의 상호작용과 윈도 간 상호작용을 처리하기 위해 깊이별 자기주의(DSA)와 점별 자기주의(PSA)로 구성된 깊이별 분리 가능 자기주의(DSA)를 도입합니다.
각 윈도우에 대한 전역 표현을 학습하고 윈도우 간 주의(attention)를 효율적으로 가능하게 하는 윈도우 토큰 임베딩을 생성합니다.
여러 윈도우에 걸친 장거리 의존성을 포착하기 위해 더 큰 서브 윈도우 그룹을 형성하는 그룹화된 자기주의(GSA)를 확장합니다.
Vision Transformer 백본에 윈도우 기반 자기주의와 조건부 위치 인코딩(CPE)을 활용한 계층적 아키텍처의 SepViT 블록을 구성합니다.
DSA와 PSA의 복잡도 분석을 제시하고 표준 MSA 및 Swin/Twins 블록과의 차이를 비교합니다.
ImageNet-1K, ADE20K, COCO(RetinaNet 및 Mask R-CNN)에서 결과를 보고하여 SepViT-T/S/B 변형을 제공하고 대기시간-정확도 이점을 보여줍니다.

실험 결과

연구 질문

RQ1깊이별 분리 가능한 자기주의와 윈도우 토큰 임베딩으로 단일 Transformer 블록에서 로컬-글로벌 상호작용을 더 낮은 계산으로 달성할 수 있는가?
RQ2윈도우 그룹 전체를 대상으로 하는 그룹화된 자기주의(GSA)가 허용 가능한 오버헤드와 함께 장거리 의존성을 더 개선하는가?
RQ3SepViT가 표준 비전 벤치마크에서 정확도, 속도, FLOPs 측면에서 동시대 ViT 및 CNN 백본과 비교했을 때 어떤 성능을 보이는가?
RQ4범용 연산자(예: 전치, 행렬 곱)를 사용하면서도 높은 성능을 유지하여 SepViT 배포에 친화적인가?

주요 결과

SepViT는 벤치마크에서 강력한 정확도-대기시간 트레이드오프를 달성합니다. 예를 들어 SepViT-B의 ImageNet-1K에서 84.2% top-1의 성능과 유사 정확도 대비 우수한 대기시간을 보입니다.
ImageNet-1K에서 SepViT 변형은 유사 정확도에서 더 높은 처리량/지연 시간을 달성하는 여러 최첨단 ViT를 능가합니다. 예를 들어 SepViT-S/B는 Swin-S/B보다 FLOPs가 더 작고 추론이 빠릅니다.
ADE20K의 의미론적 분할에서 SepViT-T/S/B는 Swin-T/S/B보다 더 높은 mIoU를 보이고 Twins에 비해 경쟁력 있는 결과를 보여주며 추론 시간은 감소합니다.
COCO의 객체 탐지 및 인스턴스 분할(RetinaNet 및 Mask R-CNN)에서 SepViT-T/S는 여러 ViT 대비 더 높은 AP를 달성하고 대기시간이 경쟁력이 있으며 SepViT-S는 여전히 강력한 경쟁력을 유지합니다.
학습 가능한 윈도 토큰(LWT), 깊이별 분리 가능 자기주의(DSSA), 그룹화된 자기주의(GSA) 각각이 성능 향상에 기여함을 보이는 제거 연구가 있으며, 전체 DSSA+GSA+LWT 구성에서 최상의 결과를 얻습니다.
두 블록 패턴(Swin/Twins)과 비교할 때 단일 SepViT 블록은 MAC 수를 대략 절반으로 줄이고 PyTorch에서 약 60% 빠르고 TensorRT에서 약 55% 빠른 등 상당한 속도향상을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.