[论文解读] Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas
该论文提出 Parabolic Position Encoding (PaPE) 与 PaPE-RI,为视觉 Transformer 提供抛物线基础的注意力偏置,在 8 个数据集、4 种模态上表现优异,并在 ImageNet-1K 上具有出色的外推能力。
We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.
研究动机与目标
- 在先前工作原理的指导下开发面向视觉的位置信编码(平移不变性、旋转不变性、距离衰减、方向性、上下文感知)。
- 设计 PaPE 通过对相对令牌位置的和式抛物线编码,实现与查询/键变换兼容的高效注意力。
- 在多种视觉模态(图像、点云、视频、事件相机)和大规模数据集上评估 PaPE 与 PaPE-RI。
- 展示 PaPE 的普适性以及在训练分辨率之外的强大外推能力。
提出的方法
- 用一个可学习的投影 W_p 定义相对位置 Delta r_ij。
- 通过 W_a 与 W_b 从令牌表示中求得抛物线系数 a_i 与 b_i,且 a_i 受约束为负以确保凸性。
- 将注意力对数 S_ij 表示为抛物线项之和再加一个语义项:S_ij = sum_l (a_i,ℓ * Δr_ij,ℓ^2) + (b_i,ℓ * Δr_ij,ℓ) + (q_i · k_j)/m。
- 通过将 b_i 设为 0、约束 W_p 与 a_i,提供一个对旋转不变的 PaPE-RI 变体。
- 通过引入将位置信息嵌入查询/键的 f_q 与 f_k,确保与 PaPE 方程(方程 9)兼容的高效注意力内核。
- 在涵盖四大视觉模态(图像、点云、时空数据、多模态)的八个数据集上进行广泛评估,并进行消融、外推测试和效率分析。

实验结果
研究问题
- RQ1如何设计一个原理性的位置编码,捕捉视觉模态下的平移不变性、在适用场景下的旋转不变性、距离衰减、方向性和上下文感知?
- RQ2相较于现有编码,基于抛物线的编码(PaPE)是否在多样的视觉任务和模态上具有更好的泛化与外推?
- RQ3PaPE 是否能够在不牺牲性能的前提下,与高效注意力内核兼容实现?
- RQ4PaPE 与 PaPE-RI 在大规模数据集和多模态设置中的影响?
主要发现
- PaPE 或 PaPE-RI 在 4 种视觉模态的 8 个数据集上实现了 7/8 数据集的顶尖性能。
- PaPE 在 8 个数据集的平均分达到最高(66.3),整体领先 RoPE 平均1分。
- PaPE 展现出强大的外推能力,在分辨率高达 512^2 时,ImageNet-1K 的准确率提升最多 1%,并对更高分辨率保持鲁棒。
- 消融实验表明所有组成部分(距离衰减、方向性、上下文感知、以及 W_p)对准确率都有贡献,移除任一项均会降低性能。
- PaPE 通过查询/键变换保持与高效注意力内核的兼容性,参数和运行时开销适中。
- 在 nuScenes(多模态)上,PaPE-PREMIER 变体实现顶级或接近顶级的性能,突显在多模态设置中旋转不变性的好处。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。