QUICK REVIEW

[论文解读] Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

Hyeonseob Nam, Bohyung Han|arXiv (Cornell University)|Oct 27, 2015

Video Surveillance and Tracking Methods参考文献 35被引用 79

一句话总结

本文提出MDNet，一种用于视觉跟踪的多领域卷积神经网络，通过在多个视频序列上联合训练，学习共享的、与领域无关的特征表示，并在推理过程中通过微调单个领域特定的分类层实现在线自适应。该方法在OTB100和VOT2014基准测试中达到最先进性能，准确率与鲁棒性均优于先前方法。

ABSTRACT

We propose a novel visual tracking algorithm based on the representations from a discriminatively trained Convolutional Neural Network (CNN). Our algorithm pretrains a CNN using a large set of videos with tracking ground-truths to obtain a generic target representation. Our network is composed of shared layers and multiple branches of domain-specific layers, where domains correspond to individual training sequences and each branch is responsible for binary classification to identify the target in each domain. We train the network with respect to each domain iteratively to obtain generic target representations in the shared layers. When tracking a target in a new sequence, we construct a new network by combining the shared layers in the pretrained CNN with a new binary classification layer, which is updated online. Online tracking is performed by evaluating the candidate windows randomly sampled around the previous target state. The proposed algorithm illustrates outstanding performance compared with state-of-the-art methods in existing tracking benchmarks.

研究动机与目标

解决卷积神经网络在视觉跟踪中缺乏大规模、专用跟踪训练数据的问题。
从具有不同外观和运动模式的多样化视频序列中学习通用的、与领域无关的目标表征。
通过在线微调单个分类头，实现在新跟踪序列中的有效自适应。
通过在带有跟踪标注的视频数据上进行训练，克服从ImageNet迁移学习的局限性。
开发一种轻量级CNN架构，适用于实时视觉跟踪并具备强泛化能力。

提出的方法

网络使用共享卷积层进行通用特征学习，同时为每个视频序列设置多个领域特定的分支以实现二分类。
每个领域（视频序列）通过迭代方式训练，共享层同步更新，从而分离出与领域无关和与领域相关的特征。
在在线跟踪中，移除领域特定的分支，添加一个新的单分类层，并通过在线学习进行微调。
引入困难负样本挖掘，以在在线自适应过程中高效更新模型，处理具有挑战性的样本。
网络在89个来自OTB100的视频序列上离线预训练，随后在新测试序列上在线微调，仅调整极少参数。
最终跟踪器通过在前一目标状态周围评估候选窗口，预测最佳边界框。

实验结果

研究问题

RQ1在带有跟踪标注的多个视频序列上进行训练的CNN，能否学习到适用于视觉跟踪的通用、可迁移的表征？
RQ2通过多领域学习框架分离领域特定与领域无关特征，是否能提升跟踪性能？
RQ3在预训练CNN中对单个分类头进行在线微调，能否实现在新序列中的鲁棒且自适应的跟踪？
RQ4在具有挑战性的视觉条件下，该方法在准确率与鲁棒性方面与最先进跟踪器相比表现如何？
RQ5在初始化不精确的情况下，模型能否在无需重新训练的前提下良好泛化到未见序列？

主要发现

在VOT2014基准测试中，MDNet取得了最高准确率（0.63）和第二高鲁棒性得分（2.50），综合排名第一。
在VOT2014的区域噪声实验中，MDNet保持了高准确率（0.60）和低失败率（3.31），表明对初始化误差具有强鲁棒性。
在OTB100上，MDNet在精度和成功率方面均优于所有对比方法，尤其在Bolt2和Ironman等挑战性序列上表现更优。
如图9所示，该方法在光照变化、运动变化、遮挡和尺寸变化等视觉属性上表现出良好稳定性。
失败案例主要源于快速外观变化（如Coupon、Jump），表明在极端外观漂移情况下仍存在局限性。
消融实验证实，在线学习与困难负样本挖掘显著提升了跟踪性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。