Skip to main content
QUICK REVIEW

[论文解读] Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas

Christoffer Koo Øhrstrøm, Rafael I. Cabral Muchacho|arXiv (Cornell University)|Feb 1, 2026
Advanced Image and Video Retrieval Techniques被引用 0
一句话总结

该论文提出 Parabolic Position Encoding (PaPE) 与 PaPE-RI,为视觉 Transformer 提供抛物线基础的注意力偏置,在 8 个数据集、4 种模态上表现优异,并在 ImageNet-1K 上具有出色的外推能力。

ABSTRACT

We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.

研究动机与目标

  • 在先前工作原理的指导下开发面向视觉的位置信编码(平移不变性、旋转不变性、距离衰减、方向性、上下文感知)。
  • 设计 PaPE 通过对相对令牌位置的和式抛物线编码,实现与查询/键变换兼容的高效注意力。
  • 在多种视觉模态(图像、点云、视频、事件相机)和大规模数据集上评估 PaPE 与 PaPE-RI。
  • 展示 PaPE 的普适性以及在训练分辨率之外的强大外推能力。

提出的方法

  • 用一个可学习的投影 W_p 定义相对位置 Delta r_ij。
  • 通过 W_a 与 W_b 从令牌表示中求得抛物线系数 a_i 与 b_i,且 a_i 受约束为负以确保凸性。
  • 将注意力对数 S_ij 表示为抛物线项之和再加一个语义项:S_ij = sum_l (a_i,ℓ * Δr_ij,ℓ^2) + (b_i,ℓ * Δr_ij,ℓ) + (q_i · k_j)/m。
  • 通过将 b_i 设为 0、约束 W_p 与 a_i,提供一个对旋转不变的 PaPE-RI 变体。
  • 通过引入将位置信息嵌入查询/键的 f_q 与 f_k,确保与 PaPE 方程(方程 9)兼容的高效注意力内核。
  • 在涵盖四大视觉模态(图像、点云、时空数据、多模态)的八个数据集上进行广泛评估,并进行消融、外推测试和效率分析。
Figure 2 : Overview of Parabolic Position Encoding (PaPE). PaPE decomposes attention (a) into distance (b), direction (c), and semantics (d). Using the dog’s eye as the query, PaPE learns to look in a bottom-right direction, while decaying attention with distance. The attention (a) is compatible wit
Figure 2 : Overview of Parabolic Position Encoding (PaPE). PaPE decomposes attention (a) into distance (b), direction (c), and semantics (d). Using the dog’s eye as the query, PaPE learns to look in a bottom-right direction, while decaying attention with distance. The attention (a) is compatible wit

实验结果

研究问题

  • RQ1如何设计一个原理性的位置编码,捕捉视觉模态下的平移不变性、在适用场景下的旋转不变性、距离衰减、方向性和上下文感知?
  • RQ2相较于现有编码,基于抛物线的编码(PaPE)是否在多样的视觉任务和模态上具有更好的泛化与外推?
  • RQ3PaPE 是否能够在不牺牲性能的前提下,与高效注意力内核兼容实现?
  • RQ4PaPE 与 PaPE-RI 在大规模数据集和多模态设置中的影响?

主要发现

  • PaPE 或 PaPE-RI 在 4 种视觉模态的 8 个数据集上实现了 7/8 数据集的顶尖性能。
  • PaPE 在 8 个数据集的平均分达到最高(66.3),整体领先 RoPE 平均1分。
  • PaPE 展现出强大的外推能力,在分辨率高达 512^2 时,ImageNet-1K 的准确率提升最多 1%,并对更高分辨率保持鲁棒。
  • 消融实验表明所有组成部分(距离衰减、方向性、上下文感知、以及 W_p)对准确率都有贡献,移除任一项均会降低性能。
  • PaPE 通过查询/键变换保持与高效注意力内核的兼容性,参数和运行时开销适中。
  • 在 nuScenes(多模态)上,PaPE-PREMIER 变体实现顶级或接近顶级的性能,突显在多模态设置中旋转不变性的好处。
Figure 3 : Model analysis on ImageNet-1K. Red ( $z>0$ ) highlights heads that lean heavily on positional information, while blue ( $z<0$ ) marks heads that prioritize semantic content in deciding what to attend to. Positions are used most strongly in early layers.
Figure 3 : Model analysis on ImageNet-1K. Red ( $z>0$ ) highlights heads that lean heavily on positional information, while blue ( $z<0$ ) marks heads that prioritize semantic content in deciding what to attend to. Positions are used most strongly in early layers.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。