Skip to main content
QUICK REVIEW

[论文解读] Visual Sentiment Prediction with Deep Convolutional Neural Networks

Can Xu, Suleyman Cetintas|arXiv (Cornell University)|Nov 21, 2014
Advanced Image and Video Retrieval Techniques参考文献 15被引用 114
一句话总结

本文提出了一种基于迁移学习的深度学习框架,用于视觉情感预测,该框架利用在 ImageNet 上预训练的卷积神经网络(CNN)提取特征。通过利用 CNN 的 fc7 和 fc8 层的特征,该方法在 Twitter 和 Tumblr 数据集上均取得了当前最优性能,显著优于传统低级特征和 SentiBank 基线方法,尤其在噪声数据上表现更优。

ABSTRACT

Images have become one of the most popular types of media through which users convey their emotions within online social networks. Although vast amount of research is devoted to sentiment analysis of textual data, there has been very limited work that focuses on analyzing sentiment of image data. In this work, we propose a novel visual sentiment prediction framework that performs image understanding with Deep Convolutional Neural Networks (CNN). Specifically, the proposed sentiment prediction framework performs transfer learning from a CNN with millions of parameters, which is pre-trained on large-scale data for object recognition. Experiments conducted on two real-world datasets from Twitter and Tumblr demonstrate the effectiveness of the proposed visual sentiment analysis framework.

研究动机与目标

  • 解决尽管社交媒体中图像化情感表达普遍存在,但视觉情感分析研究仍显不足的问题。
  • 克服需要心理学或语言学领域知识的手动设计特征和中级属性的局限性。
  • 开发一种可扩展的、端到端的深度学习框架,用于视觉情感预测,无需依赖人工特征工程。
  • 引入五级情感评分体系,以捕捉中性情感及不同情感强度,优于二元(正向/负向)标注方案。
  • 证明大规模预训练 CNN 的迁移学习在真实社交媒体数据集中的情感预测中具有有效性。

提出的方法

  • 将预训练的深度卷积神经网络(具体为在 ImageNet 上训练用于物体识别的模型)作为特征提取器。
  • 从 CNN 的 fc7 和 fc8 全连接层提取高层表示作为图像嵌入,用于情感预测。
  • 通过在视觉情感数据集上微调 CNN 的最后几层,实现迁移学习,而无需从头开始训练整个网络。
  • 在迁移后的 CNN 特征之上训练一个线性分类器,以预测情感得分。
  • 同时使用二元(正向/负向)和五级情感标签,以在不同粒度级别下评估性能。
  • 将所提方法与基线方法进行比较,基线方法包括低级图像特征(如颜色直方图、HOG)和基于中级视觉属性的 SentiBank 方法。

实验结果

研究问题

  • RQ1未经特定领域微调,预训练的深度 CNN 特征能否有效迁移到视觉情感预测任务中?
  • RQ2基于深度 CNN 的特征与传统低级图像描述符及基于中级属性的方法(如 SentiBank)相比,性能如何?
  • RQ3所提框架在不同社交媒体平台(如 Twitter 与 Tumblr)上是否具有良好的泛化能力,尤其在数据质量不一的情况下?
  • RQ4五级情感评分在多大程度上提升了情感强度建模效果,相比二元标注?
  • RQ5在不同噪声水平的数据集中,fc7 和 fc8 层表示在捕捉情感相关信息方面的能力有何差异?

主要发现

  • 所提出的 fc7 和 fc8 特征表示在 Twitter 和 Tumblr 数据集上均显著优于低级特征和 SentiBank 基线方法。
  • 在噪声更大的 Twitter 数据集中,所提方法与基线方法之间的性能差距更大,表明其对数据噪声具有更强鲁棒性。
  • 在数据更清晰的 Tumblr 数据集中,SentiBank 的表现接近所提方法,但 fc7 和 fc8 方法仍取得更优或相当的结果。
  • 在 Twitter 数据集中,fc7 层始终优于 fc8 层,表明在噪声环境中,更高层的、更抽象的特征更具有效性。
  • 在 Tumblr 数据集中,fc7 和 fc8 的性能趋于接近,表明当图像更清晰、物体更易识别时,基于物体检测的 fc8 特征更具优势。
  • 引入五级情感评分体系实现了更细致的情感建模,提升了情感强度评估效果,超越了二元分类。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。