[论文解读] Memory-augmented Dense Predictive Coding for Video Representation Learning
MemDPC 引入一个记忆增强的预测编码框架,用于自监督视频表示学习,通过压缩记忆和预测注意力实现多种未来假设,并仅使用视觉输入在动作识别、检索、数据稀缺学习和非意向性动作检测方面达到最先进或具有竞争力的结果。
The objective of this paper is self-supervised learning from video, in particular for representations for action recognition. We make the following contributions: (i) We propose a new architecture and learning framework Memory-augmented Dense Predictive Coding (MemDPC) for the task. It is trained with a predictive attention mechanism over the set of compressed memories, such that any future states can always be constructed by a convex combination of the condense representations, allowing to make multiple hypotheses efficiently. (ii) We investigate visual-only self-supervised video representation learning from RGB frames, or from unsupervised optical flow, or both. (iii) We thoroughly evaluate the quality of learnt representation on four different downstream tasks: action recognition, video retrieval, learning with scarce annotations, and unintentional action classification. In all cases, we demonstrate state-of-the-art or comparable performance over other approaches with orders of magnitude fewer training data.
研究动机与目标
- 仅使用视觉通道来推动自监督视频表示学习。
- 提出 MemDPC,一种记忆增强的密集预测编码框架,具有用于多假设未来预测的压缩记忆。
- 在动作识别、检索、数据稀缺学习和非意向性动作检测等任务上评估 MemDPC,以确立最先进或具有竞争力的结果。
提出的方法
- 将视频分成块,并使用共享编码器 f(.) 提取每个块的嵌入以获得 z_i。
- 用时序模型 g(.) 聚合块嵌入,形成总结 past 信息的上下文 c_t。
- 引入一个 Compressive Memory M = {m_i},通过预测寻址机制 p = softmax(φ(c_t)) 实现多假设未来预测。
- 将未来块表示 ŷ_{t+1} 预测为内存槽的凸组合: ŷ_{t+1} = p_t+1 M,其中 p 由 φ(.)(一个 MLP)学习。
- 使用密集对比预测损失进行训练,使对齐未来块的 (ŷ_{i,k}, z_{i,k}) 的相似度高于同批次和时空位置上的负样本。
- 可选地扩展 MemDPC,使之具备两个流输入(RGB 和光流)以及双向聚合以获得更好的表示。
实验结果
研究问题
- RQ1在自监督设定下,具有记忆增强的预测框架是否能够处理未来视频帧固有的多假设性质?
- RQ2相对于标准 DPC,加入压缩外部记忆是否能提升预测编码和下游任务性能?
- RQ3在下游任务上,使用 RGB、光流或两者结合对学习表示有何影响?
- RQ4在评估自监督视频表示时,线性探测器与非线性探测器以及端到端微调的效果如何?
- RQ5MemDPC 在动作识别、视频检索、低数据学习和非意向性动作分类方面的表现如何?
主要发现
| 网络 | 自监督 | 监督 | 数据集 | 输入 | 分辨率 | 内存大小 | UCF101(ft) |
|---|---|---|---|---|---|---|---|
| A | R18 | UCF101 | RGB | 128x128 | - | - | 63.6 |
| B1 | R18 | - | RGB | 128x128 | - | - | 61.8 |
| B2 | R18 | - | Flow | 128x128 | - | - | 74.6 |
| B3 | R18×2 | - | RGB+F | 128x128 | - | - | 78.7 |
| C1 | R18 | UCF101 | RGB | 128x128 | 512 | 512 | 65.3 |
| C2 | R18 | UCF101 | RGB | 128x128 | 1024 | 1024 | 68.2 |
| C3 | R18 | UCF101 | RGB | 128x128 | 2048 | 2048 | 68.0 |
| D1 | R18 | UCF101 | Flow | 128x128 | 1024 | 1024 | 81.9 |
| D2 | R18×2 | UCF101 | RGB+F | 128x128 | 1024 | 1024 | 84.0 |
| E1 | R18-bd | UCF101 | RGB | 128x128 | 1024 | 1024 | 69.2 |
| E2 | R18-bd | UCF101 | Flow | 128x128 | 1024 | 1024 | 82.3 |
| E3 | R18-bd×2 | UCF101 | RGB+F | 128x128 | 1024 | 1024 | 84.3 |
- 使用压缩记忆的 MemDPC 在若干基准测试上仅使用视觉输入,始终优于或达到最先进的自监督方法。
- 在消融研究中,内存大小为 1024 往往带来最佳 UCF101 结果。
- 双向聚合和两流扩展(RGB+Flow)带来额外提升,特别是在基于光流的检索和动作识别方面有显著改进。
- 在 K400 预训练上,MemDPC 在线性、非线性和全微调协议下实现了具竞争力的 UCF101 与 HMDB51 精度,通常超过使用更大数据集或多模态输入的方法。
- MemDPC 展现出强数据效率,当有标签数据稀缺时表示学习仍能带来显著提升。
- 在视频检索中,带 Flow 的 MemDPC 的 R@k 分数显著提升,RGB+Flow 融合在仅视觉自监督方法中达到领先表现。
- 在非意向性动作分类(Oops 数据集)上,MemDPC 实现了最先进的结果,即使在紧凑骨干网络和自监督预训练下也如此。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。