QUICK REVIEW

[论文解读] RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer

Jian Wang, Chenhui Gou|arXiv (Cornell University)|Oct 13, 2022

Advanced Neural Network Applications被引用 76

一句话总结

RTFormer 引入一个双分辨率Transformer，具备GPU友好注意力与跨分辨率注意力，在Cityscapes、CamVid、ADE20K与COCOStuff上实现高FPS的实时语义分割的最新准确性。

ABSTRACT

Recently, transformer-based networks have shown impressive results in semantic segmentation. Yet for real-time semantic segmentation, pure CNN-based approaches still dominate in this field, due to the time-consuming computation mechanism of transformer. We propose RTFormer, an efficient dual-resolution transformer for real-time semantic segmenation, which achieves better trade-off between performance and efficiency than CNN-based models. To achieve high inference efficiency on GPU-like devices, our RTFormer leverages GPU-Friendly Attention with linear complexity and discards the multi-head mechanism. Besides, we find that cross-resolution attention is more efficient to gather global context information for high-resolution branch by spreading the high level knowledge learned from low-resolution branch. Extensive experiments on mainstream benchmarks demonstrate the effectiveness of our proposed RTFormer, it achieves state-of-the-art on Cityscapes, CamVid and COCOStuff, and shows promising results on ADE20K. Code is available at PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.

研究动机与目标

通过Transformer为基础的网络激励实时语义分割并解决GPU友好注意力与效率问题。
提出RTFormer模块与双分辨率结构，在全局上下文建模与推理速度之间取得平衡。
在Cityscapes、CamVid、ADE20K与COCOStuff上给出实证结果，展示更优的速度-精度权衡。

提出的方法

提出带低分辨率分支的RTFormer块，使用来自外部注意力并通过分组双归一化得到的GPU-Friendly Attention (GFA)。
在高分辨率分支中应用跨分辨率注意力，将低分辨率分支的全局上下文注入到高分辨率特征中。
采用分步式布局融合低、高分辨率分支的信息，并使用两层3x3卷积的前馈网络（FFN），且不进行特征维度扩展。
通过将初始卷积干预和最后两个阶段与RTFormer块组合，再加上基于DAPPM的分割头，构建RTFormer。
在ImageNet上进行预训练，并在分割数据集上使用标准增强和训练计划进行微调。

实验结果

研究问题

RQ1双分辨率Transformer结合GPU友好注意力是否能够在不牺牲分割精度的前提下实现实时推断？
RQ2跨分辨率注意力是否能有效将低分辨率分支的高级全局上下文传递到高分辨率特征？
RQ3在实时分割中，不同注意力和FFN设计对速度（FPS）与精度（mIoU）的影响如何？
RQ4与CNN为主及其他Transformer方法相比，RTFormer在标准实时基准（Cityscapes、CamVid）及泛化场景（ADE20K、COCOStuff）上的表现如何？

主要发现

RTFormer-Slim 在 Cityscapes 上实现 110.0 FPS 的 76.3% mIoU（实时平衡）。
RTFormer-Base 在 Cityscapes 上实现 39.1 FPS 的 79.3% mIoU，成为当时实时方法中的最先进水平。
在 CamVid 上，RTFormer-Slim 实现 81.4% mIoU，190.7 FPS，参数量为 4.8M。
在 ADE20K，RTFormer-Base 达到 42.1% mIoU，71.4 FPS。
在 COCOStuff，RTFormer-Base 达到 35.3% mIoU，143.3 FPS。
消融实验显示 GPU-Friendly Attention 在速度-精度权衡上优于多头外部及自注意力；跨分辨率注意力在适度的 FPS 降低下提供进一步提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。