[论文解读] Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking
本文提出了一种早期融合的 RGB–Event 跟踪框架,在频域中使用解耦的幅度与相位注意力,并引入以运动为引导的空间稀疏化模块,以在提高跟踪精度的同时减少主干计算量。
Existing RGB-Event visual object tracking approaches primarily rely on conventional feature-level fusion, failing to fully exploit the unique advantages of event cameras. In particular, the high dynamic range and motion-sensitive nature of event cameras are often overlooked, while low-information regions are processed uniformly, leading to unnecessary computational overhead for the backbone network. To address these issues, we propose a novel tracking framework that performs early fusion in the frequency domain, enabling effective aggregation of high-frequency information from the event modality. Specifically, RGB and event modalities are transformed from the spatial domain to the frequency domain via the Fast Fourier Transform, with their amplitude and phase components decoupled. High-frequency event information is selectively fused into RGB modality through amplitude and phase attention, enhancing feature representation while substantially reducing backbone computation. In addition, a motion-guided spatial sparsification module leverages the motion-sensitive nature of event cameras to capture the relationship between target motion cues and spatial probability distribution, filtering out low-information regions and enhancing target-relevant features. Finally, a sparse set of target-relevant features is fed into the backbone network for learning, and the tracking head predicts the final target position. Extensive experiments on three widely used RGB-Event tracking benchmark datasets, including FE108, FELT, and COESOT, demonstrate the high performance and efficiency of our method. The source code of this paper will be released on https://github.com/Event-AHU/OpenEvTracking
研究动机与目标
- 通过利用事件相机的特性(高动态范围、高时间分辨率)在强光照与快速运动下实现鲁棒跟踪的动机。
- 提出在频域中的早期融合,将高频事件信息整合到 RGB 特征中,同时减少主干的 token。
- 引入运动引导的空间稀疏化,以聚焦于目标相关区域并抑制背景。
- 在 FE108、FELT 和 COESOT 数据集上通过消融实验和与现有方法的对比证明有效性。
提出的方法
- 通过 FFT 将 RGB 和事件输入转换到频域,并解耦幅度与相位分量。
- 对幅度和相位进行注意力融合,将高频事件信息融入 RGB 特征,将主干输入 token 减半。
- 使用基于 FFT 的微分 ViT(Diff-FFT ViT)对来自事件体素的目标运动进行建模。
- 实现带有方差驱动自适应 Top-K token 选择的运动引导空间稀疏化(MGSS)模块,由分数图引导。
- 将来自两种模态的 Top-K 搜索特征连接起来,送入 ViT 主干(HiViT)和跟踪头,预测最终位置。
- 以在 OSTrack 中类似的 Focal、L1 和 GIoU 损失项的组合进行训练。
实验结果
研究问题
- RQ1频域中的早期融合是否能够有效利用高频事件信息来增强 RGB 特征用于跟踪?
- RQ2解耦的幅度–相位注意力是否在降低主干计算量的同时保持或提升跟踪精度?
- RQ3事件中的运动线索是否能够引导自适应的空间 token 稀疏化以聚焦目标相关区域?
- RQ4所提模块(幅度/相位注意力与 MGSS)是否在标准 RGB–Event 跟踪基准(FE108、FELT、COESOT)上相较于最先进方法提升性能?
主要发现
| SR | PR |
|---|---|
| 64.4 | 95.2 |
- 在 FE108 上,我们的方法在表格中达到 64.4 的 SR 与 95.2 的 PR,优于若干基线。
- 通过在频域中将高频事件信息融入 RGB,降低主干 token 数量,达到令 token 量减半的效果。
- 运动引导稀疏化模块基于方差驱动分数自适应选取 Top-K token,降低背景干扰,同时保留目标相关线索。
- 在 FE108、FELT 和 COESOT 数据集上的实验显示,与多项 SOTA 跟踪器相比具有强劲性能与效率提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。