[论文解读] DeepSentiBank: Visual Sentiment Concept Classification with Deep Convolutional Neural Networks
该论文提出 DeepSentiBank,一种基于深度卷积神经网络(CNN)的模型,利用 ImageNet 的迁移学习,将视觉情感概念分类为形容词-名词对(ANPs)。通过在约一百万张带有 ANP 标签的 Flickr 图像上进行微调,该模型在先前基于 SVM 的 SentiBank 方法基础上实现了显著提升——top-1 准确率提高 370%,top-10 准确率提高 150%,在情感概念标注和图像检索方面均表现出更优性能。
This paper introduces a visual sentiment concept classification method based on deep convolutional neural networks (CNNs). The visual sentiment concepts are adjective noun pairs (ANPs) automatically discovered from the tags of web photos, and can be utilized as effective statistical cues for detecting emotions depicted in the images. Nearly one million Flickr images tagged with these ANPs are downloaded to train the classifiers of the concepts. We adopt the popular model of deep convolutional neural networks which recently shows great performance improvement on classifying large-scale web-based image dataset such as ImageNet. Our deep CNNs model is trained based on Caffe, a newly developed deep learning framework. To deal with the biased training data which only contains images with strong sentiment and to prevent overfitting, we initialize the model with the model weights trained from ImageNet. Performance evaluation shows the newly trained deep CNNs model SentiBank 2.0 (or called DeepSentiBank) is significantly improved in both annotation accuracy and retrieval performance, compared to its predecessors which mainly use binary SVM classification models.
研究动机与目标
- 通过将网络图像标签中提取的中层情感概念建模为形容词-名词对(ANPs),提升视觉情感分析性能。
- 解决利用深度学习对抽象且主观的视觉情感进行分类的挑战,克服传统二值 SVM 分类器的局限性。
- 通过在 ImageNet 上进行预训练,缓解在有限且情感偏向的训练数据上的过拟合问题,提升泛化能力。
- 相比先前的 SentiBank 模型,提升情感概念标注的准确率与图像检索性能。
- 建立一个可扩展的、基于深度学习的框架,利用大规模网络数据实现情感图像理解。
提出的方法
- 该模型采用受 Krizhevsky 等人(2012)启发的深度卷积神经网络(CNN)架构,并在 ImageNet 数据集上进行预训练以实现迁移学习。
- 使用 ImageNet 的预训练权重初始化 CNN,以减少在较小且情感偏向的 ANP 数据集上的过拟合,并加快收敛速度。
- 在约一百万张带有 ANP 标签的 Flickr 图像数据集上,使用 Caffe 深度学习框架对网络进行微调。
- 从 CNN 的最后一层全连接层提取图像级特征,用于 ANP 分类与检索任务。
- 通过 top-1、top-5 和 top-10 准确率评估分类性能,通过 top 20 的平均精度均值(mAP)评估检索性能。
- 该方法不包含目标定位或语义相似性建模,专注于整体图像表征,以作为基线比较。
实验结果
研究问题
- RQ1与传统的基于 SVM 的模型相比,使用 ImageNet 预训练的深度 CNN 是否能显著提升视觉情感概念分类的准确率?
- RQ2从通用图像数据集(ImageNet)进行迁移学习,如何提升在专门的情感偏向 ANP 数据集上的性能?
- RQ3在 ANP 标注图像上对预训练 CNN 进行微调,能在多大程度上提升标注与检索性能?
- RQ4该深度学习模型在不同评估指标(top-1、top-5、top-10、mAP)上的性能增益如何比较?
- RQ5在整体图像上进行训练的深度学习模型,能否优于先前使用局部特征或增强相似性特征的方法?
主要发现
- 与 SentiBank 1.1 相比,DeepSentiBank 在 2,089 个概念的完整 ANP 数据集上,top-1 准确率提升 370%(8.16% 对比 1.71%),表现显著提升。
- 在 top-10 准确率上,相比 SentiBank 1.1 提升 150%(26.10% 对比 10.29%),显示出在多分类预测中的强大优势。
- 对预训练模型进行微调后,性能相比未微调版本提升 14%–25%,凸显了领域特定适配的价值。
- 在 1,200 个高可检测性 ANP 子集上,DeepSentiBank 达到 14.36% 的 top-1 准确率,相比 SentiBank 1.1 的 3.04% 提升超过 300%。
- 在图像检索任务中,尽管未使用目标定位或相似性建模,DeepSentiBank 的平均精度均值(mAP)仍比 SentiBank 1.1 高 62.3%,比 SentiBank 1.5R 高 8.9%。
- 即使在存在噪声或不完美的伪真实标签情况下,该模型仍能成功检测出相关 ANP,表明其对弱监督的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。