[论文解读] Perceiver: General Perception with Iterative Attention
Perceiver 提出了一种基于 Transformer 的架构,通过将跨注意力瓶颈引入一个小型潜在数组并进行迭代的潜在自注意力,使其能够扩展到非常大、跨模态的输入,在没有模态特定先验的情况下,在图像、音频、视频和点云等任务上实现具竞争力的结果。
Biological systems perceive the world by simultaneously processing high-dimensional inputs from modalities as diverse as vision, audition, touch, proprioception, etc. The perception models used in deep learning on the other hand are designed for individual modalities, often relying on domain-specific assumptions such as the local grid structures exploited by virtually all existing vision models. These priors introduce helpful inductive biases, but also lock models to individual modalities. In this paper we introduce the Perceiver - a model that builds upon Transformers and hence makes few architectural assumptions about the relationship between its inputs, but that also scales to hundreds of thousands of inputs, like ConvNets. The model leverages an asymmetric attention mechanism to iteratively distill inputs into a tight latent bottleneck, allowing it to scale to handle very large inputs. We show that this architecture is competitive with or outperforms strong, specialized models on classification tasks across various modalities: images, point clouds, audio, video, and video+audio. The Perceiver obtains performance comparable to ResNet-50 and ViT on ImageNet without 2D convolutions by directly attending to 50,000 pixels. It is also competitive in all modalities in AudioSet.
研究动机与目标
- 激励一种尽量减少模态特定先验的通用感知架构。
- 引入 Perceiver,通过将高维输入投影到一个小的潜在瓶颈来扩展注意力。
- 在多样化模态下展示具有竞争力的性能,且不使用 2D 卷积或领域特定先验。
- 展示迭代的跨注意力和潜在自注意力如何从大输入中获得深层表示。
提出的方法
- 使用跨注意力模块将高维输入字节数组映射到固定大小的潜在数组(N << M)。
- 在潜在空间中用深度 Transformer 处理潜在数组(复杂度 ~ O(N^2))。
- 迭代地交替跨注意力和潜在自注意力块以细化输入表征。
- 在跨注意力模块和潜在 Transformer 块之间共享权重,以提高效率并实现深层结构。
- 通过可扩展的 Fourier 特征或学习编码将位置/模态信息附加到每个输入元素,以保留空间/时序结构。
- 可选地使用多个跨注意力层以改善对输入的信息提取。
实验结果
研究问题
- RQ1在视觉、音频、视频和点云等领域,是否可以通过高度模态无关的基于 Transformer 的架构实现具有竞争力的感知性能?
- RQ2非对称跨注意力瓶颈是否能够将输入扩展到数万个同时保持准确性?
- RQ3基于 Fourier 的位置编码如何影响跨模态的性能和置换鲁棒性?
- RQ4跨注意力深度与潜在 Transformer 深度之间的权衡是什么,权重共享如何影响效率和准确性?
- RQ5相对于专用架构(例如 ResNet-50、ViT)在 ImageNet、AudioSet 和 ModelNet40 上,Perceiver 的表现如何?
主要发现
- 在 50,176 输入像素下无需 2D 卷积即可实现具有竞争力的 ImageNet Top-1 精度。
- 在 AudioSet 上对原始音频、视频或两者同时取得出色表现。
- 在 ModelNet-40 点云分类中展示出竞争力的结果。
- 通过潜在瓶颈将输入大小与深度解耦,从而允许非常深的模型,总体复杂度为 O(MN + LN^2)。
- 跨注意力和 Transformer 块之间的权重共享将参数量约减少 10 倍并提高泛化性。
- Fourier 特征位置编码使模型在没有硬性架构先验的情况下保留空间/时序结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。