QUICK REVIEW

[论文解读] Discriminability objective for training descriptive captions

Ruotian Luo, Brian Price|arXiv (Cornell University)|Mar 12, 2018

Multimodal Machine Learning Applications参考文献 48被引用 72

一句话总结

该论文基于一个预训练的图像-文本检索模型，在描述生成训练中加入可辨别性损失。该方法产生更具辨识性的描述，并可能提升标准描述评估指标。

ABSTRACT

One property that remains lacking in image captions generated by contemporary methods is discriminability: being able to tell two images apart given the caption for one of them. We propose a way to improve this aspect of caption generation. By incorporating into the captioning training objective a loss component directly related to ability (by a machine) to disambiguate image/caption matches, we obtain systems that produce much more discriminative caption, according to human evaluation. Remarkably, our approach leads to improvement in other aspects of generated captions, reflected by a battery of standard scores such as BLEU, SPICE etc. Our approach is modular and can be applied to a variety of model/loss combinations commonly proposed for image captioning.

研究动机与目标

解决生成描述缺乏区分性的问题。
提出一个可辨识性损失，利用检索模型评估图-文匹配性。
将可辨识性损失整合到现有的描述生成训练框架中。
表明可辨识性增强的训练在辨识能力和标准描述指标上均有提升。

提出的方法

使用一个预训练的图像-描述嵌入模型在共享空间内计算相似度分数 s(I,c)。
定义对比损失 L_CON，强制正确的图像-描述对比得分高于负样本，差异为一个边界 α。
定义可辨识性损失为从描述生成器采样的描述的期望对比损失：最小化 E[L_CON(c_hat,I)]。
使用强化学习（REINFORCE）训练描述生成器（FC 和 ATTN），以最大化一个结合传统目标（MLE 或 CIDEr）与可辨识性项的奖励。
可选地将 CIDEr 与可辨识性结合为奖励：R = CIDEr(c_hat) − λ L_CON(c_hat,I)。
提供一个自我批评训练方案，其中基线是贪婪解码输出。

实验结果

研究问题

RQ1可辨识性导向的训练目标是否能提升用描述区分正确图像与干扰图像的能力？
RQ2将可辨识性纳入训练是否会影响 BLEU、METEOR、ROUGE、CIDEr 和 SPICE 等标准指标？
RQ3可辨识性目标在不同的描述生成架构（FC 和 ATTN）以及训练方案（MLE/CIDEr）上是否有效？
RQ4可辨识性权重 λ 对生成描述的辨识性和流畅度有何影响？
RQ5在使用所提目标时，人工评估是否与自动可辨识性提升一致？

主要发现

可辨识性训练产生的描述对检索模型更具辨识性（在目标与干扰评估上准确率更高）。
纳入可辨识性提升了人类在判断描述-图像匹配时的辨别准确性。
在中等 λ 值下，加入可辨识性可提升标准指标（BLEU、METEOR、ROUGE、CIDEr、SPICE）。
ATTN+CIDER+DISC 配置在自动指标和可辨识性测试中通常表现最强。
更高的 λ 提高辨识性但可能降低流畅度或其他指标，实验中最佳权衡近似 λ ≈ 1。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。