[论文解读] TRec: Learning Hand-Object Interactions through 2D Point Track Motion
TRec 在 Transformer 中将 2D 随机采样的点轨迹与图像帧结合使用,以识别手部-物体动作,而无需显式手部/物体检测,在 Something-Something-v2 上优于仅使用 RGB 的基线。
We present a novel approach for hand-object action recognition that leverages 2D point tracks as an additional motion cue. While most existing methods rely on RGB appearance, human pose estimation, or their combination, our work demonstrates that tracking randomly sampled image points across video frames can substantially improve recognition accuracy. Unlike prior approaches, we do not detect hands, objects, or interaction regions. Instead, we employ CoTracker to follow a set of randomly initialized points through each video and use the resulting trajectories, together with the corresponding image frames, as input to a Transformer-based recognition model. Surprisingly, our method achieves notable gains even when only the initial frame and the point tracks are provided, without incorporating the full video sequence. Experimental results confirm that integrating 2D point tracks consistently enhances performance compared to the same model trained without motion information, highlighting their potential as a lightweight yet effective representation for hand-object action understanding.
研究动机与目标
- 在不依赖显式手部/物体检测或仅 RGB 提示的情况下,激发手部-物体动作识别的研究动机。
- 探究 2D 点轨迹是否为细粒度动作提供有意义的运动信息。
- 证明在 Transformer 基础模型中整合点轨迹与图像特征的有效性。
提出的方法
- 对每个视频采样 900 个随机 2D 点并使用 CoTracker 进行跟踪以获得点轨迹。
- 使用轻量级图像编码器(ResNet18)提取帧特征,并将它们与点轨迹一起输入 Transformer。
- 使用多头注意力汇聚层对 Transformer 输出进行聚合。
- 用交叉熵损失训练的 MLP 分类头进行动作预测。
- 在相同架构和训练流程下,将带轨道的模型(TRec)与仅 RGB 的基线进行对比。

实验结果
研究问题
- RQ12D 点轨迹是否能提供对手部-物体动作识别有用的互补运动线索,而无需显式手部/物体检测?
- RQ2将 2D 点轨迹纳入后,对 Something-Something-v2 的识别准确率有何影响?
- RQ3跟踪点数量对性能的影响如何?
- RQ4背景运动是否有助于第一人称视频的动作识别,基于 KDE 的过滤对性能有何影响?
- RQ5单图输入是否足以利用运动轨迹进行动作识别?
主要发现
| Model | Top-1 | Top-5 |
|---|---|---|
| TRec | 61.10 ± 8.66 | 83.95 ± 6.62 |
| baseline | 30.27 ± 8.05 | 53.24 ± 8.75 |
- TRec 在 Something-Something-v2 上显著优于仅 RGB 的基线(Top-1 61.10% 对 30.27%,RGB 单独)。
- 在 50+ 点时性能保持稳定,超过 100 点增益递减;少于 25 点会降低准确率。
- 背景运动对动作识别有显著贡献;用 KDE 过滤前景点会降低准确率。
- 仅使用初始帧加上点轨迹就能在该任务上超越在完整视频上训练的 RGB 基线。
- 单图评估表明即使初始帧不显示手/物体,运动轨迹仍为动作识别提供强烈线索。
- 点轨迹所捕捉的背景与运动线索使在无需显式手/物体检测的情况下也能实现鲁棒识别。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。