Skip to main content
QUICK REVIEW

[论文解读] You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

Y.K. Fang, Bencheng Liao|arXiv (Cornell University)|Jun 1, 2021
Advanced Neural Network Applications参考文献 72被引用 195
一句话总结

YOLOS 表示一个 vanilla Vision Transformer,经过最小修改后即可使用纯序列到序列的方法执行 2D 目标检测,在 ImageNet-1k 预训练后在 COCO 上取得具有竞争力的结果(如 YOLOS-Base 在 COCO val 上的 42.0 AP)。

ABSTRACT

Can Transformer perform 2D object- and region-level recognition from a pure sequence-to-sequence perspective with minimal knowledge about the 2D spatial structure? To answer this question, we present You Only Look at One Sequence (YOLOS), a series of object detection models based on the vanilla Vision Transformer with the fewest possible modifications, region priors, as well as inductive biases of the target task. We find that YOLOS pre-trained on the mid-sized ImageNet-1k dataset only can already achieve quite competitive performance on the challenging COCO object detection benchmark, e.g., YOLOS-Base directly adopted from BERT-Base architecture can obtain 42.0 box AP on COCO val. We also discuss the impacts as well as limitations of current pre-train schemes and model scaling strategies for Transformer in vision through YOLOS. Code and pre-trained models are available at https://github.com/hustvl/YOLOS.

研究动机与目标

  • 证明一个 vanilla Vision Transformer 能在尽可能少的空间归纳偏置下从图像级识别迁移到 2D 目标检测。
  • 证明在一个纯序列到序列框架中进行目标检测,而无需将 ViT 输出重新解释为 2D 特征图。
  • 评估预训练方案对基于 ViT 的检测器的影响,并将 YOLOS 确立为 ViT 预训练策略的基准。

提出的方法

  • 用 100 个 DET token 替换 ViT 的 CLS token 以进行目标检测。
  • 使用二分匹配损失以集合到序列的预测方式训练检测,在标签分配过程中避免显式的二维空间先验。
  • 尽量保持 YOLOS 的架构接近 vanilla ViT,只实现必要的检测头作为轻量级 MLP 用于类别和边界框预测。
  • 将 DET tokens 附加到 PATCH tokens,并添加一维可学习的位置嵌入;使用标准 Transformer 编码器层进行训练。
  • 从 ImageNet-1k 预训练权重微调,DET token 和小头部除外,随机初始化。

实验结果

研究问题

  • RQ1一个预训练的 vanilla ViT 能在没有大量 2D 归纳偏置的情况下迁移到鲁棒的 2D 目标检测吗?
  • RQ2不同的预训练策略(有监督 vs 自监督)对 ViT 基检测器在 COCO 上的影响如何?
  • RQ3模型规模扩大对 ViT 在目标检测中的预训练与迁移学习有何影响?
  • RQ4在类似设置下,YOLOS 与 DETR 和基于 CNN 的检测器相比是如何表现的?

主要发现

  • 在 ImageNet-1k 上预训练的 vanilla ViT 能在最小修改的情况下达到具有竞争力的 COCO 检测性能(例如 YOLOS-Base 在 COCO val 上的 42.0 AP)。
  • YOLOS 使用 100 个 DET token 作为对象代理并采用二分匹配损失,避免将 ViT 输出重新解释为 2D 特征图。
  • 预训练策略显著影响向 COCO 的迁移;自监督预训练(如 DINO)对于较小模型可接近有标签监督的表现,且存在蒸馏收益。
  • 在缩放策略中,宽度缩放、统一复合缩放(dwr)和快速缩放(dw r)显示出不同的权衡;由于在较高分辨率下空间注意力的显著性,预训练收益并非总能直接转化为 COCO 的提升。
  • YOLOS-Ti 可与极小的 CNN 检 detectors 竞争,在某些设置中较大的 YOLOS 变体甚至可能超越某些 DETR 对手, though 收益取决于模型和设置。
  • DET tokens 主要携带对象位置的信息,而非对象类别的嵌入,表明它们作为带位置信息的对象代理,而非类别特定的嵌入。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。