[论文解读] Action2Vec: A Crossmodal Embedding Approach to Action Learning
Action2Vec 构建一个联合视觉-语义嵌入空间,通过将视频派生的时空特征与基于动词的 Word2Vec 嵌入结合,实现零样本动作识别和语义类比评估。
We describe a novel cross-modal embedding space for actions, named Action2Vec, which combines linguistic cues from class labels with spatio-temporal features derived from video clips. Our approach uses a hierarchical recurrent network to capture the temporal structure of video features. We train our embedding using a joint loss that combines classification accuracy with similarity to Word2Vec semantics. We evaluate Action2Vec by performing zero shot action recognition and obtain state of the art results on three standard datasets. In addition, we present two novel analogy tests which quantify the extent to which our joint embedding captures distributional semantics. This is the first joint embedding space to combine verbs and action videos, and the first to be thoroughly evaluated with respect to its distributional semantics.
研究动机与目标
- 提出一个联合嵌入空间,将来自动作动词的语言线索与视频派生的时空特征融合。
- 开发一个端到端架构,将视频片段及其相关动词映射到一个公共嵌入空间。
- 实现零样本动作识别,并通过类比测试和分布式语义来评估语义结构。
- 提出评估方法,量化多模态空间中动词嵌入的语义丰富度。
提出的方法
- 使用带自注意力的分层循环神经网络(HRNN)将视频特征编码为向量。
- 将一对损失结合为双重损失:基于余弦的成对排序损失和交叉熵分类损失。
- 使用 C3D 表示视频特征,降维到 500 维,并通过两层 HRNN(LSTM 1 和 LSTM 2)处理,最终得到与 Word2Vec 动词嵌入对齐的 300 维投影。
- 在特征输入与 LSTM 之间引入软注意力,以捕捉时间结构。
- 使用困难负样本挖掘和 Adam 优化,采用 lambda 缩放来平衡损失。
- 将类别名标注为现有 Word2Vec 动词,对于多词类别名,则取词向量的平均。
实验结果
研究问题
- RQ1一个行动的联合视频-文本嵌入是否能够在标准数据集上支持准确的零样本识别?
- RQ2Action2Vec 是否保持在动词相同、名词不同的动作之间的语义相似性?
- RQ3在 Action2Vec 空间中的向量运算是否会产生连贯的新的动作描述?
- RQ4Action2Vec 嵌入与 WordNet 和 Word2Vec 提供的动词分布式语义对齐的程度如何?
主要发现
- Action2Vec 在 HMDB51、UCF101 和 Kinetics 的报告分割下实现了最先进的零样本动作识别。
- 嵌入空间在语义上将视觉上相似的动作聚类,展示跨模态空间的局部性。
- 基于 WordNet 的混淆矩阵与 Word2Vec 的相关性最高,Action2Vec 在跨数据集的语义结构上紧随 Word2Vec。
- Action2Vec 的向量运算展示了有意义的类比,支持对动作的分布式语义属性。
- 消融研究表明,双重损失和软注意力相对于无它们的变体可提升 ZSL(零样本学习)性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。