[论文解读] SentiCap: Generating Image Descriptions with Sentiments
SentiCap 提出一种带有词级正则化的切换循环神经网络,仅使用 2,000 多条情感标注的训练句,生成情感色彩浓厚的图像字幕。该模型在生成正面字幕方面准确率达到 88%,负面字幕方面达到 72%,同时在 84.6% 的情况下保持了与事实性字幕相当的强描述质量。
The recent progress on image recognition and language modeling is making automatic description of image content a reality. However, stylized, non-factual aspects of the written description are missing from the current systems. One such style is descriptions with emotions, which is commonplace in everyday communication, and influences decision-making and interpersonal relationships. We design a system to describe an image with emotions, and present a model that automatically generates captions with positive or negative sentiments. We propose a novel switching recurrent neural network with word-level regularization, which is able to produce emotional image captions using only 2000+ training sentences containing sentiments. We evaluate the captions with different automatic and crowd-sourcing metrics. Our model compares favourably in common quality metrics for image captioning. In 84.6% of cases the generated positive captions were judged as being at least as descriptive as the factual captions. Of these positive captions 88% were confirmed by the crowd-sourced workers as having the appropriate sentiment.
研究动机与目标
- 为解决现有图像字幕系统缺乏情感表达的问题,这些系统通常仅生成事实性描述。
- 开发一种方法,仅使用极少的情感标注训练数据,即可生成具有可控正向或负向情感的图像字幕。
- 设计一种模型,有效将情感融入自然语言生成过程,同时不牺牲描述准确性。
- 通过自动指标和众包评估相结合的方式,对模型进行评价,涵盖情感准确率和描述质量。
提出的方法
- 采用双并行 LSTM 流的切换 RNN 架构:一条用于通用语言建模,另一条专门用于情感感知的字幕生成。
- 提出一种新颖的词级正则化方案,在训练过程中强化情感承载词(如 Visual SentiBank 中的 ANPs),以引导模型生成情感表达。
- 通过重写任务从事实性 MSCOCO 描述中收集超过 2,000 条情感标注字幕,保留描述内容的同时注入情感。
- 在 413,000 条中性字幕和超过 2,000 条情感标注字幕上进行联合训练,使模型能从有限数据中学习情感感知的生成能力。
- 结合注意力机制和 CNN 特征进行图像表征,同时使用基于 LSTM 的语言模型生成句子。
- 通过自动指标(如 BLEU、ROUGE)、人工评估情感感知,以及成对判断中的描述性对比,对模型进行评估。
实验结果
研究问题
- RQ1神经字幕模型是否能仅使用少量情感标注数据,生成具有情感表达的字幕?
- RQ2带有词级正则化的切换 RNN 架构在多大程度上能有效学习在图像字幕中插入情感词?
- RQ3与事实性字幕相比,众包工作者在多大程度上能准确感知生成字幕中的情感?
- RQ4情感生成在多大程度上影响生成字幕的描述质量和新颖性?
主要发现
- 在 84.6% 的情况下,SentiCap 生成的正面字幕被评价为至少与事实性字幕一样具有描述性,表明其在描述准确性方面表现优异。
- 88.4% 的正面字幕被众包工作者评为比事实基线更积极,证实了情感生成的有效性。
- 72.5% 的负面字幕被认为比事实字幕更消极,表明负面情感生成具有可靠性。
- SentiCap 生成的字幕新颖度达到 95.7%,显著高于仅在 MSCOCO 上训练的标准 CNN+RNN 模型的 38.2%,表明其泛化能力更强。
- 该模型在情感词频率和情感强度方面优于三个基线模型,且正确放置的情感词数量最多。
- 在 66.4% 的情况下,正面字幕被认为比非情感字幕更有趣;而在 63.2% 的情况下,负面字幕被认为更无趣,反映出负面情感与趣味性之间的自然矛盾。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。