[论文解读] Stack-Captioning: Coarse-to-Fine Learning for Image Captioning
提出一个从粗到细的多阶段图像描述框架,具有中间监督和强化学习以优化评估指标,在 MSCOCO 上达到最先进的结果。
The existing image captioning approaches typically train a one-stage sentence decoder, which is difficult to generate rich fine-grained descriptions. On the other hand, multi-stage image caption model is hard to train due to the vanishing gradient problem. In this paper, we propose a coarse-to-fine multi-stage prediction framework for image captioning, composed of multiple decoders each of which operates on the output of the previous stage, producing increasingly refined image descriptions. Our proposed learning approach addresses the difficulty of vanishing gradients during training by providing a learning objective function that enforces intermediate supervisions. Particularly, we optimize our model with a reinforcement learning approach which utilizes the output of each intermediate decoder's test-time inference algorithm as well as the output of its preceding decoder to normalize the rewards, which simultaneously solves the well-known exposure bias problem and the loss-evaluation mismatch problem. We extensively evaluate the proposed approach on MSCOCO and show that our approach can achieve the state-of-the-art performance.
研究动机与目标
- 解决使用单阶段解码器生成丰富、细粒度描述的困难。
- 通过强制中间监督来缓解深层多阶段图像描述中的梯度消失问题。
- 通过具有归一化中间奖励的强化学习目标,减少暴露偏差和损失-评估不匹配。
- 利用堆叠注意力在各阶段逐步细化用于单词预测的视觉区域。
- 相比基线和现有方法,在 MSCOCO 上展示最先进的性能。
提出的方法
- 构建一个粗到细的编码器-解码器架构,包含一个粗解码器后接多个细解码器。
- 使用堆叠注意力机制,每个阶段接收来自前一阶段的注意力权重和隐藏状态以细化预测。
- 在每个阶段用交叉熵损失进行中间监督训练,然后使用阶段奖励的强化学习目标进行优化。
- 定义一个奖励归一化策略,结合阶段在测试时推理输出和前一阶段的输出,以解决暴露偏差和损失-评估不匹配。
- 实现一个在全局图像特征上运行的粗解码器(LSTMcoarse),以及具有对空间图像区域注意力的细解码器(LSTMi fine);采用堆叠注意力模型以逐步过滤视觉噪声。
实验结果
研究问题
- RQ1从粗到细的多阶段描述框架是否能在产生的描述丰富性上优于传统的一阶段解码器?
- RQ2中间监督是否能缓解深度多阶段描述模型中的梯度消失问题?
- RQ3以归一化的中间奖励进行强化学习是否能解决暴露偏差和多阶段描述中的评估指标对齐问题?
- RQ4跨阶段的堆叠注意力是否能产生更准确、更具描述性的用于单词生成的注意力图?
主要发现
- Stack-Cap (C2F) 在在用交叉熵和 CIDEr 优化的 RL 训练下,在 MSCOCO Karpathy 测试集上的生成指标达到最佳性能,例如 BLEU-1 78.6,BLEU-2 62.5,BLEU-3 47.9,BLEU-4 36.1,METEOR 27.4,CIDEr 120.4。
- Stack-Cap (XE) 在多项指标上优于基线模型,包括 LSTM、三层 LSTM,以及基于注意力的模型,展示了带中间监督的粗到细学习的优势。
- 通过 RL (SCST) 直接用 CIDEr 进行优化进一步提高了 Stack-Cap 的结果,达到 CIDEr 120.4,与其他方法相比。
- 在线 MSCOCO 评估显示 Stack-Cap 在单模型性能上具有与最先进集成模型相比的竞争力。
- 定性分析显示注意力图和标题在各阶段逐步变得更精确、描述性更强,例如在更细化的注意力下识别对象及关系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。