[论文解读] TAP-Vid: A Benchmark for Tracking Any Point in a Video
TAP-Vid 将 Tracking Any Point(TAP)问题形式化,并引入一个结合真实与合成视频的基准,用于在可变形表面上进行长期、逐点跟踪的评估。它还提出 TAP-Net,一种端到端基线,在该基准上优于之前的方法。
Generic motion understanding from video involves not only tracking objects, but also perceiving how their surfaces deform and move. This information is useful to make inferences about 3D shape, physical properties and object interactions. While the problem of tracking arbitrary physical points on surfaces over longer video clips has received some attention, no dataset or benchmark for evaluation existed, until now. In this paper, we first formalize the problem, naming it tracking any point (TAP). We introduce a companion benchmark, TAP-Vid, which is composed of both real-world videos with accurate human annotations of point tracks, and synthetic videos with perfect ground-truth point tracks. Central to the construction of our benchmark is a novel semi-automatic crowdsourced pipeline which uses optical flow estimates to compensate for easier, short-term motion like camera shake, allowing annotators to focus on harder sections of video. We validate our pipeline on synthetic data and propose a simple end-to-end point tracking model TAP-Net, showing that it outperforms all prior methods on our benchmark when trained on synthetic data.
研究动机与目标
- 将 Tracking Any Point(TAP)问题形式化为在可变形表面上的长期运动理解。
- 创建 TAP-Vid,一个混合真实/合成的基准,包含密集点轨迹和遮挡标签。
- 提供一个标注流水线和一个强大的端到端 TAP 基线,并分析数据集属性与基线表现。
提出的方法
- 将 TAP 定义为在所有帧中跟踪一个被查询的点(x, y, t),并对每帧预测遮挡。
- 使用真实数据集(Kinetics、DAVIS)与合成数据集(Kubric MOVi-E、RGB-Stacking)来组装 TAP-Vid。
- 开发一个半自动的轨迹辅助标注流水线,利用光流将稀疏点扩展为密集轨迹。
- 提出 TAP-Net,一种端到端网络,使用代价体积将查询点与视频中所有位置对比,并回归位置与遮挡。
- 使用三部分损失:对可见帧使用 Hubert 回归,对遮挡使用交叉熵。
实验结果
研究问题
- RQ1我们如何将对可变形表面上整个视频序列的任意点跟踪进行形式化并进行评估?
- RQ2合成数据能否让有效的 TAP 跟踪器在真实视频中实现迁移?
- RQ3端到端 TAP 跟踪与遮挡估计的有效架构与损失函数是什么?
- RQ4现有跟踪方法在 TAP-Vid 数据集上的表现如何,在哪些方面存在不足?
- RQ5实现可靠的真实 TAP 基准需要何种标注策略和质量控制?
主要发现
- TAP-Net 在所有 TAP-Vid 数据集上比以前的基线取得了大幅领先。
- 轨迹辅助光流流水线实现高效且准确的标注,在合成数据中与 ground truth 的对齐度很高(99% 的点在8像素内)。
- 真实的人类标注显示约 95.5% 的遮挡与约 92.5% 的位置在标注者之间的4像素内一致。
- TAP-Vid-Kinetics、TAP-Vid-DAVIS、TAP-Vid-Kubric 和 TAP-Vid-RGB-Stacking 提供了真实与合成数据的多样化评估设置。
- 缺少遮挡处理或对可变形对象适配能力的基线方法,在 TAP-Vid 数据集上表现不如 TAP-Net。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。