Skip to main content
QUICK REVIEW

[论文解读] Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition

Qibin Hou, Zihang Jiang|arXiv (Cornell University)|Jun 23, 2021
Advanced Neural Network Applications参考文献 45被引用 25
一句话总结

Vision Permutator 引入一个三分支 Permute-MLP,分别沿高度和宽度编码空间信息,使用类似MLP的架构在ImageNet上实现具竞争力的结果,参数量为25M–88M。

ABSTRACT

In this paper, we present Vision Permutator, a conceptually simple and data efficient MLP-like architecture for visual recognition. By realizing the importance of the positional information carried by 2D feature representations, unlike recent MLP-like models that encode the spatial information along the flattened spatial dimensions, Vision Permutator separately encodes the feature representations along the height and width dimensions with linear projections. This allows Vision Permutator to capture long-range dependencies along one spatial direction and meanwhile preserve precise positional information along the other direction. The resulting position-sensitive outputs are then aggregated in a mutually complementing manner to form expressive representations of the objects of interest. We show that our Vision Permutators are formidable competitors to convolutional neural networks (CNNs) and vision transformers. Without the dependence on spatial convolutions or attention mechanisms, Vision Permutator achieves 81.5% top-1 accuracy on ImageNet without extra large-scale training data (e.g., ImageNet-22k) using only 25M learnable parameters, which is much better than most CNNs and vision transformers under the same model size constraint. When scaling up to 88M, it attains 83.2% top-1 accuracy. We hope this work could encourage research on rethinking the way of encoding spatial information and facilitate the development of MLP-like models. Code is available at https://github.com/Andrew-Qibin/VisionPermutator.

研究动机与目标

  • 激励在 ImageNet-1k 数据上效果良好的数据高效MLP风格模型。
  • 提出一种具有空间感知的MLP样层,保留二维位置信息。
  • 证明分离的高度和宽度编码相较于展平的token MLP能提升性能。
  • 展示在相近模型规模下与CNN和视觉Transformer的竞争性结果。

提出的方法

  • 将输入图像分割成补丁,并通过共享线性投影映射为token嵌入。
  • 使用一系列Permutator块,结合Permute-MLP(高度、宽度、通道分支)与Channel-MLP进行特征混合。
  • Permute-MLP通过高度通道和宽度通道置换结合线性投影分别编码高度和宽度信息。
  • 通过相加合并分支输出并用最终全连接层进行特征融合。
  • 可选通过分裂注意力对 Permute-MLP 加权以重新给分支输出赋权重。
  • 使用标准数据增强和AdamW训练,且不使用除了ImageNet-1k以外的额外数据。

实验结果

研究问题

  • RQ1分离编码高度和宽度的空间信息是否能在MLP风格网络中优于扁平化的空间表示?
  • RQ2在数据高效训练下,哪种规模(Small/Medium/Large)和补丁配置能提供最佳的 ImageNet-1k 准确率?
  • RQ3数据增强策略如何影响 Vision Permutator 的性能?
  • RQ4相较于简单相加,对 Permute-MLP 分支进行加权(Weighted Permute-MLP)是否有益?

主要发现

  • ViP-Small/7 25M 参数在不使用额外数据的情况下实现了 81.5% 的 top-1 准确率。
  • ViP-Medium/7 55M 参数达到 82.7% 的 top-1。
  • ViP-Large/7 88M 参数达到 83.2% 的 top-1。
  • 数据增强(随机增广、CutOut、MixUp、CutMix)显著提升精度,其中 CutMix 从 75.3% 提升到 80.6%。
  • 编码高度和宽度信息至关重要;去掉任一会将精度降至约 72-73%,而 Weighted Permute-MLP 提升至 80.6%。
  • 扩大模型规模(更多层和更高隐藏维度)持续提升性能(ViP-Small/7 到 ViP-Large/7:81.5% → 83.2%)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。