QUICK REVIEW

[论文解读] Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training

Rakshith Shetty, Marcus Rohrbach|arXiv (Cornell University)|Mar 30, 2017

Multimodal Machine Learning Applications参考文献 44被引用 32

一句话总结

本文提出了一种用于图像字幕生成的对抗性训练框架，通过匹配人类撰写字幕的统计分布而非记忆真实字幕，使生成器能够生成多样且类人的字幕。通过使用Gumbel-softmax重参数化方法，并让判别器同时评估多个字幕，该模型在保持最先进准确率的同时，显著提升了字幕多样性与人类字幕统计分布的一致性，展现出更强的泛化能力并减少了模式崩溃现象。

ABSTRACT

While strong progress has been made in image captioning over the last years, machine and human captions are still quite distinct. A closer look reveals that this is due to the deficiencies in the generated word distribution, vocabulary size, and strong bias in the generators towards frequent captions. Furthermore, humans -- rightfully so -- generate multiple, diverse captions, due to the inherent ambiguity in the captioning task which is not considered in today's systems. To address these challenges, we change the training objective of the caption generator from reproducing groundtruth captions to generating a set of captions that is indistinguishable from human generated captions. Instead of handcrafting such a learning target, we employ adversarial training in combination with an approximate Gumbel sampler to implicitly match the generated distribution to the human one. While our method achieves comparable performance to the state-of-the-art in terms of the correctness of the captions, we generate a set of diverse captions, that are significantly less biased and match the word statistics better in several aspects.

研究动机与目标

解决图像字幕生成中机器生成字幕与人类撰写字幕之间缺乏多样性及分布不匹配的问题。
通过将训练目标从真实字幕的复现转变为类人字幕的生成，克服当前最先进模型对高频、通用字幕的偏见。
通过为每张图像生成一组多样化的字幕，而非单一字幕，显式建模图像字幕固有的模糊性。
通过使用可同时评估多个字幕的判别器进行对抗性训练，提升生成字幕的真实感与多样性。
匹配人类字幕的全局n-gram分布（一元、二元、三元语法），减少对训练集片段的记忆。

提出的方法

模型采用条件对抗生成网络（Conditional GAN）框架，其中生成器为每张图像生成多个字幕，判别器则同时对比一批生成字幕与真实人类字幕。
采用近似Gumbel采样重参数化方法，使生成器中离散词生成过程可端到端反向传播。
判别器被训练以区分真实人类字幕与生成字幕，而生成器则被优化以欺骗判别器。
训练目标包含特征匹配损失，以稳定训练过程并防止模式崩溃，促使生成器匹配人类字幕的统计分布。
通过束搜索或采样方法为每张图像生成多个字幕，判别器将整个字幕集合作为单一输入进行评估，以促进多样性。
生成器通过对抗损失与促进多样性的目标联合训练，同时使用ResNet特征提供更丰富的视觉表征。

实验结果

研究问题

RQ1对抗性训练能否有效应用于图像字幕生成，以生成更具多样性和类人特征的字幕？
RQ2如何在不依赖真实字幕监督的情况下，使生成器匹配人类字幕的全局n-gram分布？
RQ3在判别器中同时评估多个生成字幕是否能防止模式崩溃并提升字幕多样性？
RQ4所提方法在多大程度上减少了对训练集中高频字幕片段的记忆？
RQ5与标准束搜索相比，该模型能否在保持高准确率的同时，为每张图像生成更丰富的字幕集合？

主要发现

对抗性模型在验证集上的Meteor得分达到0.236，与最先进基线模型相当，表明其保持了高准确率。
对抗性模型的词汇量（采样方式下为2671）显著高于基线模型（1085），表明其词汇偏差更小，对罕见词的覆盖更优。
对抗性模型生成新字幕的比例达72.53%，而束搜索基线仅为44.27%，表明其对训练集字幕的记忆显著减少。
如图7所示，该模型的词汇量分布更贴近人类字幕，覆盖所有词频阈值，表明词使用更均衡。
对抗性模型在多样性度量（Div-2、词汇量、每张图像的多样性）上均有显著提升，尤其当判别器同时评估五个字幕时效果更佳。
消融实验表明，同时评估多个字幕以及使用特征匹配损失，对防止模式崩溃和提升多样性至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。