[论文解读] Recurrent Mixture Density Network for Spatiotemporal Visual Attention
本文提出 RMDN,一种使用 3D-CNN 特征、LSTM 主干和高斯混合网络来预测类似人类的视频显著性的时空显著性模型,在显著性预测和动作识别性能上均有所提升。
In many computer vision tasks, the relevant information to solve the problem at hand is mixed to irrelevant, distracting information. This has motivated researchers to design attentional models that can dynamically focus on parts of images or videos that are salient, e.g., by down-weighting irrelevant pixels. In this work, we propose a spatiotemporal attentional model that learns where to look in a video directly from human fixation data. We model visual attention with a mixture of Gaussians at each frame. This distribution is used to express the probability of saliency for each pixel. Time consistency in videos is modeled hierarchically by: 1) deep 3D convolutional features to represent spatial and short-term time relations and 2) a long short-term memory network on top that aggregates the clip-level representation of sequential clips and therefore expands the temporal domain from few frames to seconds. The parameters of the proposed model are optimized via maximum likelihood estimation using human fixations as training data, without knowledge of the action in each video. Our experiments on Hollywood2 show state-of-the-art performance on saliency prediction for video. We also show that our attentional model trained on Hollywood2 generalizes well to UCF101 and it can be leveraged to improve action classification accuracy on both datasets.
研究动机与目标
- 在自动分析中过滤分散信息,动机与模型视频中的视觉注意力。
- 开发一个从人类注视直接训练的时空显著性预测模型,无需动作标签。
- 利用 clip 级的 3D CNN 特征和基于 LSTM 的时序聚合,生成逐帧的显著性图。
- 证明预测的显著性图能提升下游的动作识别性能。
- 在 Hollywood2 上展示最先进的显著性预测,并评估对 UCF101 的泛化能力。
提出的方法
- 用 3D CNN 特征 (C3D) 表示每个视频片段(16 帧)。
- 使用 LSTM 对片段表示进行时间上的聚合,以获得长期时序的一致性。
- 将显著性预测为高斯混合模型,其 GMM 参数由来自 LSTM 的全连接层产生(MDN)。
- 通过最大似然从人类注视数据进行训练,反向传播通过时间展开。
- 在测试时,将基于 GMM 的显著性图归一化,形成逐像素的概率分布。
- 通过对像素(或特征)进行加权,将显著性作为软注意力,以通过拼接上下文和显著性加权表示并使用线性 SVM 分类器来提升动作识别。
实验结果
研究问题
- RQ1深度循环模型在没有动作标签的情况下,是否可以使用注视数据来预测视频中的时空人类显著性?
- RQ2将 3D CNN 片段表示与 LSTM 和 MDN 相结合,是否能在 Hollywood2 上达到最先进的显著性预测?
- RQ3预测的显著性图是否能提升 Hollywood2 的动作识别性能并对 UCF101 具备泛化性?
主要发现
| 模型 | 每帧 Fix. | AUC | NSS | CC | Sim |
|---|---|---|---|---|---|
| 训练的中心偏置 | 150 | 0.8725 | 1.7646 | 0.5297 | 0.4812 |
| RMDN RNN(128) | 80 | 0.8745 | 1.9505 | 0.5495 | 0.4962 |
| RMDN LSTM(128) | 80 | 0.8866 | 2.0155 | 0.4606 | 0.4219 |
| RMDN LSTM(256) | 150 | 0.8986 | 2.5169 | 0.6007 | 0.5278 |
| RMDN full LSTM(256) | 150 | 0.9037 | 2.6455 | 0.6129 | 0.5349 |
- RMDN 在 Hollywood2 的 AUC、NSS、CC 和相似性指标上均优于训练的中心偏置基线。
- 基于 LSTM 的循环 MDN 比 RNN 基线具有更高的显著性预测准确性,并且从每帧更多的注视中获益。
- 完整的 RMDN 采用 20 个 GMM 分量,在 Hollywood2 上达到最先进的显著性结果(AUC 0.9037,NSS 2.6455,CC 0.6129,Sim 0.5349)。
- 推理阶段的显著性推断速度极快(每 16 帧片段在 GPU 上 0.08s)。
- 地面真实显著性图与预测图在将其用作动作识别的软注意力时,带来类似的提升(将显著性加权特征拼接后平均 mAP 提高)。
- 在 UCF101 上,将 C3D 特征与显著性加权特征相结合可带来性能提升(C3D + RMDN + 线性 SVM 相比仅上下文提升约 1.1%,添加中心偏置后进一步提升)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。