[论文解读] Actor-Critic Sequence Training for Image Captioning
本文通过演员-评论家强化学习来训练一个图像标题生成模型,直接优化像CIDEr这样的不可微分语言指标,在不使用模型集成的情况下达到最先进的性能。
Generating natural language descriptions of images is an important capability for a robot or other visual-intelligence driven AI agent that may need to communicate with human users about what it is seeing. Such image captioning methods are typically trained by maximising the likelihood of ground-truth annotated caption given the image. While simple and easy to implement, this approach does not directly maximise the language quality metrics we care about such as CIDEr. In this paper we investigate training image captioning methods based on actor-critic reinforcement learning in order to directly optimise non-differentiable quality metrics of interest. By formulating a per-token advantage and value computation strategy in this novel reinforcement learning based captioning model, we show that it is possible to achieve the state of the art performance on the widely used MSCOCO benchmark.
研究动机与目标
- 推动通过直接优化语言质量指标来改进图像标题生成,而非基于似然性的训练。
- 通过将标题生成视为强化学习问题来解决教师强制中的曝光偏差。
- 开发带有每个令牌优势的演员-评论家框架来引导标题生成。
- 展示在MSCOCO上使用单一模型达到最先进的性能。
- 评估并与强大的监督和基于RL的基线进行比较。
提出的方法
- 将图像标题生成建模为带有CNN图像特征的编码-解码器,并使用LSTM解码器。
- 将标题生成形式化为一个马尔可夫决策过程,其中动作是词标记。
- 使用一个演员网络来产生词分布,另有一个分离的评论家网络来估计状态值。
- 使用前向视图TD(1)公式(λ=1)计算逐词优势以引导策略梯度。
- 将奖励定义为最终的标题质量分数(如CIDEr),并通过使用TD目标的策略梯度进行反向传播。
- 在联合训练之前,用交叉熵损失对演员进行预训练,并用固定演员样本对评论家进行预训练。
实验结果
研究问题
- RQ1演员-评论家强化学习是否能直接在图像标题生成中优化不可微分的语言指标?
- RQ2逐词优势与独立的值网络是否相对于以往的RL方法提升训练稳定性和性能?
- RQ3与监督和其他RL方法相比,基于RL的训练对MSCOCO标题生成性能的影响如何?
主要发现
- 提出的演员-评论家模型在MSCOCO上实现了最先进的性能(无需模型集成,在官方测试服务器上排名第三)。
- 在开发集上,该方法将CIDEr-D从1.007(监督基线)提升到1.162,使用单模型贪婪解码。
- 该方法在CIDEr-D及其他指标上优于基于注意力和记忆增强的基线以及若干RL方法。
- 与某些RL基线相比,所提方法的训练效率更高,部分原因是不需要注意力单元且蒙特卡洛采样较少。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。