[论文解读] Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning
该论文提出 hLSTMat,一种具有调整时间注意力机制的层次化LSTM,用于视频字幕生成。该模型通过动态决定何时使用视觉特征或语言上下文,区分视觉词与非视觉词。通过在帧选择中应用时间注意力,并利用调整后的注意力机制抑制非视觉词上的冗余视觉注意力,该模型在MSVD(53.0% B@4,33.6% METEOR)和MSR-VTT(38.3% B@4,26.3% METEOR)上实现了最先进性能。
Recent progress has been made in using attention based encoder-decoder framework for video captioning. However, most existing decoders apply the attention mechanism to every generated word including both visual words (e.g., "gun" and "shooting") and non-visual words (e.g. "the", "a"). However, these non-visual words can be easily predicted using natural language model without considering visual signals or attention. Imposing attention mechanism on non-visual words could mislead and decrease the overall performance of video captioning. To address this issue, we propose a hierarchical LSTM with adjusted temporal attention (hLSTMat) approach for video captioning. Specifically, the proposed framework utilizes the temporal attention for selecting specific frames to predict the related words, while the adjusted temporal attention is for deciding whether to depend on the visual information or the language context information. Also, a hierarchical LSTMs is designed to simultaneously consider both low-level visual information and high-level language context information to support the video caption generation. To demonstrate the effectiveness of our proposed framework, we test our method on two prevalent datasets: MSVD and MSR-VTT, and experimental results show that our approach outperforms the state-of-the-art methods on both two datasets.
研究动机与目标
- 解决将注意力机制应用于不需视觉信号的非视觉词(如'the'、'a')的问题,这些词可能误导字幕生成。
- 设计一种框架,自动决定何时依赖视觉信息,何时使用语言上下文,以提高注意力机制的效率与准确性。
- 整合层次化LSTM,同时建模低层次视觉特征与高层次语言上下文,以获得更丰富的时序与语义表征。
- 通过结合时间注意力与调整后的时间注意力机制,在标准视频字幕基准测试中超越现有方法。
提出的方法
- 模型使用2D卷积神经网络(ResNet-152)从每个视频帧中提取空间特征。
- 具有两层的层次化LSTM同时处理视觉特征与语言上下文,实现多粒度的时序建模。
- 时间注意力在每个解码步骤中基于与当前词的相关性,选择相关视频帧。
- 调整后的时间注意力决定是否使用视觉特征,或仅依赖语言上下文,从而减少无关视觉注意力带来的噪声。
- 通过动态路由注意力机制(基于词类型:视觉词或非视觉词),联合优化视觉建模与语言建模。
- 模型采用交叉熵损失进行端到端训练,并在推理时使用束搜索(beam search)。
实验结果
研究问题
- RQ1视频字幕模型能否通过动态决定何时使用视觉信号,来减少对非视觉词的注意力开销?
- RQ2与标准LSTM相比,视觉特征与语言特征的层次化建模如何提升视频字幕生成性能?
- RQ3一种能抑制非视觉词视觉注意力的调整后注意力机制,是否能带来优于标准注意力机制的性能提升?
- RQ4所提出的框架能否在MSVD与MSR-VTT两个数据集上均超越最先进方法?
- RQ5时间注意力与调整后时间注意力的结合如何影响字幕质量与语义覆盖度?
主要发现
- 在MSVD数据集上,hLSTMat取得53.0% B@4与33.6% METEOR,相较于最佳基线模型p-RNN,B@4提升8.7%,METEOR提升2.5%。
- 采用调整注意力机制的模型(hLSTMat)相比基线模型hLSTMt,在B@4上提升0.9%,METEOR上提升0.3%,证明了该调节机制的有效性。
- 在MSR-VTT数据集上,hLSTMat取得38.3% B@4与26.3% METEOR,两项指标均创下新最先进水平。
- 人工评估显示,hLSTMat在整体字幕质量上排名第一,且在准确性方面具有竞争力,但在信息覆盖度上略低于p-RNN。
- 消融实验表明,层次化LSTM与调整后时间注意力的结合,显著优于标准注意力或单一注意力机制。
- 该模型仅使用ResNet-152特征即取得优异性能,优于使用多种网络(如VGGNet、C3D、光流)的方法,证明了其高效性与有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。