[论文解读] Real-Time MDNet
本文提出 Real-Time MDNet,一种针对 MDNet 视觉追踪算法的速度优化变体,通过加速特征提取并利用高分辨率特征图与一种新型无领域特异性对比损失,实现约 25 倍的推理速度提升,同时保持近乎相同的准确率。该方法在无需数据集特定调优的情况下,增强了跨多样化物体领域的判别性特征学习能力。
We present a fast and accurate visual tracking algorithm based on the multi-domain convolutional neural network (MDNet). The proposed approach accelerates feature extraction procedure and learns more discriminative models for instance classification; it enhances representation quality of target and background by maintaining a high resolution feature map with a large receptive field per activation. We also introduce a novel loss term to differentiate foreground instances across multiple domains and learn a more discriminative embedding of target objects with similar semantics. The proposed techniques are integrated into the pipeline of a well known CNN-based visual tracking algorithm, MDNet. We accomplish approximately 25 times speed-up with almost identical accuracy compared to MDNet. Our algorithm is evaluated in multiple popular tracking benchmark datasets including OTB2015, UAV123, and TempleColor, and outperforms the state-of-the-art real-time tracking methods consistently even without dataset-specific parameter tuning.
研究动机与目标
- 为解决 MDNet 这一先进 CNN 基追踪器在实时部署中的计算效率低下问题。
- 通过在保持大感受野的同时维持高分辨率特征图,提升特征表示质量。
- 通过学习语义上有意义的嵌入表示,增强在多样化视觉领域中的判别能力。
- 实现实时性能,同时不损失准确率,且无需进行数据集特定的超参数调优。
提出的方法
- 通过优化 MDNet 中主干网络和特征处理流程,加速特征提取。
- 保持高分辨率特征图,以在扩展每激活单元有效感受野的同时保留空间细节。
- 引入一种新型对比损失项,鼓励不同领域中前景实例的分离,同时保持语义相似性。
- 将改进的特征学习与损失函数整合到原始 MDNet 追踪框架中,实现端到端训练。
- 利用无领域特异性的特征嵌入,提升在多样化视觉外观和物体类别间的泛化能力。
实验结果
研究问题
- RQ1MDNet 是否能在不造成显著准确率下降的情况下实现实时推理?
- RQ2在保持大感受野的同时维持高分辨率特征图,对追踪性能有何影响?
- RQ3无领域特异性的对比损失是否能提升在多样化视觉领域中的特征可分性?
- RQ4所提方法在无需数据集特定调优的情况下,其泛化能力在多大程度上适用于不同基准测试?
主要发现
- 所提出的 Real-Time MDNet 实现了约 25 倍于原始 MDNet 的推理速度提升,同时保持了近乎相同的追踪准确率。
- 该方法在多个基准数据集(包括 OTB2015、UAV123 和 TempleColor)上优于当前最先进的实时追踪算法。
- 高分辨率特征图与新型对比损失的结合显著提升了特征表示能力和判别性能。
- 该模型在无需数据集特定超参数调优的情况下,于多样化追踪场景中均实现了稳定的性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。