QUICK REVIEW

[论文解读] Global Context Vision Transformers

Ali Hatamizadeh, Hongxu Yin|arXiv (Cornell University)|Jun 20, 2022

Advanced Neural Network Applications被引用 34

一句话总结

GC ViT 引入全局上下文自注意力，使用在分层 ViT 中共享全局查询令牌，在 ImageNet-1K 上无需预训练达到最先进的结果，并在 COCO 和 ADE20K 下游任务上表现强劲。

ABSTRACT

We propose global context vision transformer (GC ViT), a novel architecture that enhances parameter and compute utilization for computer vision. Our method leverages global context self-attention modules, joint with standard local self-attention, to effectively and efficiently model both long and short-range spatial interactions, without the need for expensive operations such as computing attention masks or shifting local windows. In addition, we address the lack of the inductive bias in ViTs, and propose to leverage a modified fused inverted residual blocks in our architecture. Our proposed GC ViT achieves state-of-the-art results across image classification, object detection and semantic segmentation tasks. On ImageNet-1K dataset for classification, the variants of GC ViT with 51M, 90M and 201M parameters achieve 84.3%, 85.0% and 85.7% Top-1 accuracy, respectively, at 224 image resolution and without any pre-training, hence surpassing comparably-sized prior art such as CNN-based ConvNeXt and ViT-based MaxViT and Swin Transformer by a large margin. Pre-trained GC ViT backbones in downstream tasks of object detection, instance segmentation, and semantic segmentation using MS COCO and ADE20K datasets outperform prior work consistently. Specifically, GC ViT with a 4-scale DINO detection head achieves a box AP of 58.3 on MS COCO dataset.

研究动机与目标

动机：在视觉 Transformer 中高效捕捉短程和长程空间信息的必要性。
提出一种分层 ViT，将局部自注意力与全局自注意力交错进行，而无需昂贵的掩码或位移。
引入类似 CNN 的下采样模块，以注入归纳偏置并建模通道间依赖。
设计一个全局查询生成器，生成在全局注意力块之间共享的全局令牌。
展示在分类任务上的最先进性能以及在检测和分割等下游任务中的竞争性表现。

提出的方法

提出一个分层的 GC ViT 架构，阶段将空间分辨率减半并将嵌入维度加倍。
在局部自注意力（窗口内）和全局自注意力（通过预先计算的全局查询令牌）之间交替使用块。
引入一个全局查询生成器，在每个阶段从整张图像提取全局特征并重新形状以与局部键/值交互。
采用修改后的融合 MBConv 下采样块（带 SE 和 GELU）以提供卷积归纳偏置并进行通道间建模。
提供一个带步幅卷积和最大池化步骤的下采样器，在降低分辨率的同时保留信息。
分析复杂度以证明 GC ViT 在实现全局上下文建模的同时，其成本与 Swin Transformer 相当。

实验结果

研究问题

RQ1在不需要昂贵掩码或位移的情况下，使用共享全局查询令牌的全局上下文自注意力是否能够提升 ViT 对长程交互的建模？
RQ2将 CNN 启发的下采样和全局查询生成器的加入是否在分类、检测和分割等任务上提供显著的归纳偏置和性能提升？
RQ3在扩展 GC ViT 至图像分类及下游任务时，参数量、FLOPs 与精度之间的权衡是什么？

主要发现

GC ViT 的变体参数量为 51M、90M 和 201M，在 ImageNet-1K 上无预训练达到 84.3%、85.0% 和 85.7% 的 Top-1 精度。
GC ViT-T、-S、-B、-L backbone 在从头训练时，在 ImageNet-1K 上显示出与现有方法竞争甚至达到最先进的结果。
在 MS COCO 上，使用预训练的 ImageNet 骨架和 Cascade Mask R-CNN 头的 GC ViT 达到 52.9 AP (box) 和 45.8 AP (mask)，具备 4-scale 检测头；GC ViT-L 结合 ImageNet-21K + 4-scale DINO 头达到 58.3% box AP。
在 ADE20K 上，GC ViT-B 使用 UPerNet 头并采用单尺度推理达到 49.2 mIoU。
消融实验显示移除窗口位移或下采样会降低性能，加入类似 CNN 的干预干和全局自注意力在分类、检测和分割上带来显著提升。
ImageNet-21K 预训练后再微调得到 GC ViT-L 的 top-1 为 86.6%，在迁移到 ImageNet-1K 时与 Swin-L 和 ConvNeXt-L 竞争力相当。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。