QUICK REVIEW

[论文解读] Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas

Christoffer Koo Øhrstrøm, Rafael I. Cabral Muchacho|arXiv (Cornell University)|Feb 1, 2026

Advanced Image and Video Retrieval Techniques被引用 0

一句话总结

该论文提出 Parabolic Position Encoding (PaPE) 与 PaPE-RI，为视觉 Transformer 提供抛物线基础的注意力偏置，在 8 个数据集、4 种模态上表现优异，并在 ImageNet-1K 上具有出色的外推能力。

ABSTRACT

We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.

研究动机与目标

在先前工作原理的指导下开发面向视觉的位置信编码（平移不变性、旋转不变性、距离衰减、方向性、上下文感知）。
设计 PaPE 通过对相对令牌位置的和式抛物线编码，实现与查询/键变换兼容的高效注意力。
在多种视觉模态（图像、点云、视频、事件相机）和大规模数据集上评估 PaPE 与 PaPE-RI。
展示 PaPE 的普适性以及在训练分辨率之外的强大外推能力。

提出的方法

用一个可学习的投影 W_p 定义相对位置 Delta r_ij。
通过 W_a 与 W_b 从令牌表示中求得抛物线系数 a_i 与 b_i，且 a_i 受约束为负以确保凸性。
将注意力对数 S_ij 表示为抛物线项之和再加一个语义项：S_ij = sum_l (a_i,ℓ * Δr_ij,ℓ^2) + (b_i,ℓ * Δr_ij,ℓ) + (q_i · k_j)/m。
通过将 b_i 设为 0、约束 W_p 与 a_i，提供一个对旋转不变的 PaPE-RI 变体。
通过引入将位置信息嵌入查询/键的 f_q 与 f_k，确保与 PaPE 方程（方程 9）兼容的高效注意力内核。
在涵盖四大视觉模态（图像、点云、时空数据、多模态）的八个数据集上进行广泛评估，并进行消融、外推测试和效率分析。

Figure 2 : Overview of Parabolic Position Encoding (PaPE). PaPE decomposes attention (a) into distance (b), direction (c), and semantics (d). Using the dog’s eye as the query, PaPE learns to look in a bottom-right direction, while decaying attention with distance. The attention (a) is compatible wit

实验结果

研究问题

RQ1如何设计一个原理性的位置编码，捕捉视觉模态下的平移不变性、在适用场景下的旋转不变性、距离衰减、方向性和上下文感知？
RQ2相较于现有编码，基于抛物线的编码（PaPE）是否在多样的视觉任务和模态上具有更好的泛化与外推？
RQ3PaPE 是否能够在不牺牲性能的前提下，与高效注意力内核兼容实现？
RQ4PaPE 与 PaPE-RI 在大规模数据集和多模态设置中的影响？

主要发现

PaPE 或 PaPE-RI 在 4 种视觉模态的 8 个数据集上实现了 7/8 数据集的顶尖性能。
PaPE 在 8 个数据集的平均分达到最高（66.3），整体领先 RoPE 平均1分。
PaPE 展现出强大的外推能力，在分辨率高达 512^2 时，ImageNet-1K 的准确率提升最多 1%，并对更高分辨率保持鲁棒。
消融实验表明所有组成部分（距离衰减、方向性、上下文感知、以及 W_p）对准确率都有贡献，移除任一项均会降低性能。
PaPE 通过查询/键变换保持与高效注意力内核的兼容性，参数和运行时开销适中。
在 nuScenes（多模态）上，PaPE-PREMIER 变体实现顶级或接近顶级的性能，突显在多模态设置中旋转不变性的好处。

Figure 3 : Model analysis on ImageNet-1K. Red ( $z>0$ ) highlights heads that lean heavily on positional information, while blue ( $z<0$ ) marks heads that prioritize semantic content in deciding what to attend to. Positions are used most strongly in early layers.

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。