QUICK REVIEW

[论文解读] SentiCap: Generating Image Descriptions with Sentiments

A. P. Mathews, Lexing Xie|arXiv (Cornell University)|Oct 6, 2015

Multimodal Machine Learning Applications参考文献 37被引用 32

一句话总结

SentiCap 提出一种带有词级正则化的切换循环神经网络，仅使用 2,000 多条情感标注的训练句，生成情感色彩浓厚的图像字幕。该模型在生成正面字幕方面准确率达到 88%，负面字幕方面达到 72%，同时在 84.6% 的情况下保持了与事实性字幕相当的强描述质量。

ABSTRACT

The recent progress on image recognition and language modeling is making automatic description of image content a reality. However, stylized, non-factual aspects of the written description are missing from the current systems. One such style is descriptions with emotions, which is commonplace in everyday communication, and influences decision-making and interpersonal relationships. We design a system to describe an image with emotions, and present a model that automatically generates captions with positive or negative sentiments. We propose a novel switching recurrent neural network with word-level regularization, which is able to produce emotional image captions using only 2000+ training sentences containing sentiments. We evaluate the captions with different automatic and crowd-sourcing metrics. Our model compares favourably in common quality metrics for image captioning. In 84.6% of cases the generated positive captions were judged as being at least as descriptive as the factual captions. Of these positive captions 88% were confirmed by the crowd-sourced workers as having the appropriate sentiment.

研究动机与目标

为解决现有图像字幕系统缺乏情感表达的问题，这些系统通常仅生成事实性描述。
开发一种方法，仅使用极少的情感标注训练数据，即可生成具有可控正向或负向情感的图像字幕。
设计一种模型，有效将情感融入自然语言生成过程，同时不牺牲描述准确性。
通过自动指标和众包评估相结合的方式，对模型进行评价，涵盖情感准确率和描述质量。

提出的方法

采用双并行 LSTM 流的切换 RNN 架构：一条用于通用语言建模，另一条专门用于情感感知的字幕生成。
提出一种新颖的词级正则化方案，在训练过程中强化情感承载词（如 Visual SentiBank 中的 ANPs），以引导模型生成情感表达。
通过重写任务从事实性 MSCOCO 描述中收集超过 2,000 条情感标注字幕，保留描述内容的同时注入情感。
在 413,000 条中性字幕和超过 2,000 条情感标注字幕上进行联合训练，使模型能从有限数据中学习情感感知的生成能力。
结合注意力机制和 CNN 特征进行图像表征，同时使用基于 LSTM 的语言模型生成句子。
通过自动指标（如 BLEU、ROUGE）、人工评估情感感知，以及成对判断中的描述性对比，对模型进行评估。

实验结果

研究问题

RQ1神经字幕模型是否能仅使用少量情感标注数据，生成具有情感表达的字幕？
RQ2带有词级正则化的切换 RNN 架构在多大程度上能有效学习在图像字幕中插入情感词？
RQ3与事实性字幕相比，众包工作者在多大程度上能准确感知生成字幕中的情感？
RQ4情感生成在多大程度上影响生成字幕的描述质量和新颖性？

主要发现

在 84.6% 的情况下，SentiCap 生成的正面字幕被评价为至少与事实性字幕一样具有描述性，表明其在描述准确性方面表现优异。
88.4% 的正面字幕被众包工作者评为比事实基线更积极，证实了情感生成的有效性。
72.5% 的负面字幕被认为比事实字幕更消极，表明负面情感生成具有可靠性。
SentiCap 生成的字幕新颖度达到 95.7%，显著高于仅在 MSCOCO 上训练的标准 CNN+RNN 模型的 38.2%，表明其泛化能力更强。
该模型在情感词频率和情感强度方面优于三个基线模型，且正确放置的情感词数量最多。
在 66.4% 的情况下，正面字幕被认为比非情感字幕更有趣；而在 63.2% 的情况下，负面字幕被认为更无趣，反映出负面情感与趣味性之间的自然矛盾。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。