Skip to main content
QUICK REVIEW

[论文解读] SentiCap: Generating Image Descriptions with Sentiments

A. P. Mathews, Lexing Xie|arXiv (Cornell University)|Oct 6, 2015
Multimodal Machine Learning Applications参考文献 37被引用 32
一句话总结

SentiCap 提出一种带有词级正则化的切换循环神经网络,仅使用 2,000 多条情感标注的训练句,生成情感色彩浓厚的图像字幕。该模型在生成正面字幕方面准确率达到 88%,负面字幕方面达到 72%,同时在 84.6% 的情况下保持了与事实性字幕相当的强描述质量。

ABSTRACT

The recent progress on image recognition and language modeling is making automatic description of image content a reality. However, stylized, non-factual aspects of the written description are missing from the current systems. One such style is descriptions with emotions, which is commonplace in everyday communication, and influences decision-making and interpersonal relationships. We design a system to describe an image with emotions, and present a model that automatically generates captions with positive or negative sentiments. We propose a novel switching recurrent neural network with word-level regularization, which is able to produce emotional image captions using only 2000+ training sentences containing sentiments. We evaluate the captions with different automatic and crowd-sourcing metrics. Our model compares favourably in common quality metrics for image captioning. In 84.6% of cases the generated positive captions were judged as being at least as descriptive as the factual captions. Of these positive captions 88% were confirmed by the crowd-sourced workers as having the appropriate sentiment.

研究动机与目标

  • 为解决现有图像字幕系统缺乏情感表达的问题,这些系统通常仅生成事实性描述。
  • 开发一种方法,仅使用极少的情感标注训练数据,即可生成具有可控正向或负向情感的图像字幕。
  • 设计一种模型,有效将情感融入自然语言生成过程,同时不牺牲描述准确性。
  • 通过自动指标和众包评估相结合的方式,对模型进行评价,涵盖情感准确率和描述质量。

提出的方法

  • 采用双并行 LSTM 流的切换 RNN 架构:一条用于通用语言建模,另一条专门用于情感感知的字幕生成。
  • 提出一种新颖的词级正则化方案,在训练过程中强化情感承载词(如 Visual SentiBank 中的 ANPs),以引导模型生成情感表达。
  • 通过重写任务从事实性 MSCOCO 描述中收集超过 2,000 条情感标注字幕,保留描述内容的同时注入情感。
  • 在 413,000 条中性字幕和超过 2,000 条情感标注字幕上进行联合训练,使模型能从有限数据中学习情感感知的生成能力。
  • 结合注意力机制和 CNN 特征进行图像表征,同时使用基于 LSTM 的语言模型生成句子。
  • 通过自动指标(如 BLEU、ROUGE)、人工评估情感感知,以及成对判断中的描述性对比,对模型进行评估。

实验结果

研究问题

  • RQ1神经字幕模型是否能仅使用少量情感标注数据,生成具有情感表达的字幕?
  • RQ2带有词级正则化的切换 RNN 架构在多大程度上能有效学习在图像字幕中插入情感词?
  • RQ3与事实性字幕相比,众包工作者在多大程度上能准确感知生成字幕中的情感?
  • RQ4情感生成在多大程度上影响生成字幕的描述质量和新颖性?

主要发现

  • 在 84.6% 的情况下,SentiCap 生成的正面字幕被评价为至少与事实性字幕一样具有描述性,表明其在描述准确性方面表现优异。
  • 88.4% 的正面字幕被众包工作者评为比事实基线更积极,证实了情感生成的有效性。
  • 72.5% 的负面字幕被认为比事实字幕更消极,表明负面情感生成具有可靠性。
  • SentiCap 生成的字幕新颖度达到 95.7%,显著高于仅在 MSCOCO 上训练的标准 CNN+RNN 模型的 38.2%,表明其泛化能力更强。
  • 该模型在情感词频率和情感强度方面优于三个基线模型,且正确放置的情感词数量最多。
  • 在 66.4% 的情况下,正面字幕被认为比非情感字幕更有趣;而在 63.2% 的情况下,负面字幕被认为更无趣,反映出负面情感与趣味性之间的自然矛盾。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。