[论文解读] Hierarchical Attentive Recurrent Tracking
该论文提出了一种生物启发的、完全可微分的模型——分层注意递归追踪(HART),通过三阶段注意力层次结构(空间、外观和基于位置的注意力)提升视频中单目标追踪的性能。通过结合循环神经网络与多层级注意力机制及辅助损失,HART在KITTI和KTH数据集上实现了最先进性能,尤其在处理遮挡和杂乱场景方面表现优异。
Class-agnostic object tracking is particularly difficult in cluttered environments as target specific discriminative models cannot be learned a priori. Inspired by how the human visual cortex employs spatial attention and separate "where" and "what" processing pathways to actively suppress irrelevant visual features, this work develops a hierarchical attentive recurrent model for single object tracking in videos. The first layer of attention discards the majority of background by selecting a region containing the object of interest, while the subsequent layers tune in on visual features particular to the tracked object. This framework is fully differentiable and can be trained in a purely data driven fashion by gradient methods. To improve training convergence, we augment the loss function with terms for a number of auxiliary tasks relevant for tracking. Evaluation of the proposed model is performed on two datasets: pedestrian tracking on the KTH activity recognition dataset and the more difficult KITTI object tracking dataset.
研究动机与目标
- 解决在无法预先学习目标特定模型的杂乱环境中进行类别无关目标追踪的挑战。
- 通过模仿人类视觉注意机制,提升在遮挡、外观变化和干扰物干扰下的追踪鲁棒性。
- 开发一种完全可微分、端到端可训练的框架,整合空间与外观注意力机制以及循环状态估计。
- 通过引入空间注意力、外观注意力和边界框回归的辅助损失,提升训练稳定性与收敛性。
- 在KITTI和KTH等真实世界数据集上展示优越性能,尤其在先前的注意型追踪器失效的场景中表现突出。
提出的方法
- 采用具有三阶段的分层注意力机制:(1) 空间注意力用于提取相关图像片段,(2) 外观注意力用于生成突出目标特定特征的特征图,(3) 基于位置的注意力用于抑制干扰物。
- 使用基于LSTM的递归状态估计器来建模随时间变化的目标运动,其隐藏状态基于注意力特征进行条件化。
- 整合多任务学习目标,包含四个辅助损失:边界框回归损失、空间注意力损失、外观注意力损失,以及最终追踪输出的损失。
- 应用反馈回路,通过反向传播更新注意力参数,实现基于梯度下降的端到端训练。
- 使用预训练权重初始化特征提取器,并采用课程学习以稳定训练,但若无辅助损失,该方法效果较弱。
- 采用可微分的片段提取机制,使梯度能够通过注意力过程流动,从而实现注意力与追踪的联合优化。
实验结果
研究问题
- RQ1在干扰物常见的杂乱视频序列中,分层注意力机制是否能提升追踪性能?
- RQ2引入辅助损失(尤其是外观与空间注意力损失)是否能增强训练收敛性与模型鲁棒性?
- RQ3是否能通过模仿背侧与腹侧视觉通路的生物启发注意力层次结构,超越标准的循环网络或仅注意力的追踪器?
- RQ4当模型在缺乏目标类别先验知识的情况下进行训练时,该模型如何处理遮挡与外观变化?
- RQ5基于注意力的特征选择在多大程度上提升了可解释性并降低了计算成本?
主要发现
- 加入外观注意力损失的模型能有效防止遮挡期间的ID混淆,如图6(a)所示,即使行人被另一人遮挡,追踪仍能保持稳定。
- 未使用外观注意力损失的模型会产生模糊或错误的位置图,常遗漏目标或错误聚焦于干扰物,如图6(b)所示。
- 空间注意力偏置始终收敛为正值,表明模型学会关注略大于真实边界框的区域,从而提升对运动抖动的鲁棒性。
- 辅助损失的引入——尤其是空间与外观注意力损失——对避免梯度消失、实现稳定训练至关重要。
- HART在KITTI和KTH数据集上优于先前的注意型追踪器,在具有挑战性的现实世界场景中实现了最先进性能。
- 注意力机制通过生成可见的位置图突出相关特征,提升了模型决策过程的可解释性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。