Skip to main content
QUICK REVIEW

[论文解读] Robust Image Sentiment Analysis Using Progressively Trained and Domain Transferred Deep Networks

Quanzeng You, Jiebo Luo|arXiv (Cornell University)|Sep 20, 2015
Sentiment Analysis and Opinion Mining参考文献 27被引用 213
一句话总结

本文提出了一种用于鲁棒图像情感分析的深度卷积神经网络(CNN)框架,采用逐步训练和领域迁移的模型。通过利用五百万张弱标签的Flickr图像,并在少量人工标注的Twitter图像上进行微调,该方法在Twitter测试数据上取得了SOTA性能,F1得分为0.846,显著优于使用手工设计特征或预训练模型的基线方法。

ABSTRACT

Sentiment analysis of online user generated content is important for many social media analytics tasks. Researchers have largely relied on textual sentiment analysis to develop systems to predict political elections, measure economic indicators, and so on. Recently, social media users are increasingly using images and videos to express their opinions and share their experiences. Sentiment analysis of such large scale visual content can help better extract user sentiments toward events or topics, such as those in image tweets, so that prediction of sentiment from visual content is complementary to textual sentiment analysis. Motivated by the needs in leveraging large scale yet noisy training data to solve the extremely challenging problem of image sentiment analysis, we employ Convolutional Neural Networks (CNN). We first design a suitable CNN architecture for image sentiment analysis. We obtain half a million training samples by using a baseline sentiment algorithm to label Flickr images. To make use of such noisy machine labeled data, we employ a progressive strategy to fine-tune the deep network. Furthermore, we improve the performance on Twitter images by inducing domain transfer with a small number of manually labeled Twitter images. We have conducted extensive experiments on manually labeled Twitter images. The results show that the proposed CNN can achieve better performance in image sentiment analysis than competing algorithms.

研究动机与目标

  • 为解决手动标注视觉情感数据有限的问题,利用大规模、噪声较多的图像数据集。
  • 通过迁移学习提升模型在不同领域间的泛化能力,特别是从Flickr到Twitter的迁移。
  • 开发一种深度学习框架,优于依赖手工设计视觉特征或属性的传统方法。
  • 实现从视觉内容中有效预测情感,补充社交媒体分析中的文本情感分析。
  • 证明使用深度CNN结合渐进式训练与领域自适应进行视觉情感分析的可行性和有效性。

提出的方法

  • 设计了一种专为图像情感分析定制的深度CNN架构,优化了高层抽象与情感分类能力。
  • 采用渐进式训练策略,在五百万张弱标签的Flickr图像上微调CNN,提升对噪声标签的鲁棒性。
  • 仅使用1269张人工标注的Twitter图像,应用领域迁移将预训练模型适配到目标领域。
  • 在目标领域数据上端到端微调模型,实现知识迁移并提升对未见Twitter图像的性能。
  • 使用标准指标(包括精确率、召回率和F1得分)在多个测试集上评估性能。
  • 该框架实现了在目标领域仅需极少标注数据的迁移学习,减少了对大规模人工标注的依赖。

实验结果

研究问题

  • RQ1在大规模、噪声较多的图像数据上训练的深度CNN能否在图像情感分析中实现鲁棒性能?
  • RQ2渐进式训练在缓解弱监督学习中噪声标签影响方面有多有效?
  • RQ3仅使用少量人工标注样本,从Flickr图像训练的模型在多大程度上能泛化到Twitter图像?
  • RQ4与固定特征模型相比,使用领域特定数据进行端到端微调是否能提升情感分类准确率?
  • RQ5深度神经网络能否在视觉情感分析中超越依赖手工设计低级或中级视觉特征的传统方法?

主要发现

  • 所提出的CNN在Twitter测试集上取得了0.846的F1得分,显著优于所有基线方法,包括SentiBank(0.776)和Sentribute(0.805)。
  • 微调后的CNN在Twitter测试集上达到0.905的精确率和0.855的召回率,表明其在正向情感预测方面表现强劲。
  • 在噪声Flickr数据上进行渐进式训练,随后在1269张Twitter图像上进行领域适应,性能显著优于仅在源领域数据上训练的模型。
  • 微调后的CNN与PCNN模型性能相近,表明尽管初始化不同,微调过程仍能帮助模型收敛到有效的局部极小值。
  • 两种模型的最高分预测结果均被正确分类,但被预测为最高正例的图像并不完全相同,表明由于不同的优化路径,其学习到的表征也存在差异。
  • 使用低级特征的模型中观察到相似的误分类情况,表明其在特征表示方面存在共性局限;而深度学习模型则展现出更一致且鲁棒的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。