QUICK REVIEW

[论文解读] Building a Large Scale Dataset for Image Emotion Recognition: The Fine Print and The Benchmark

Quanzeng You, Jiebo Luo|arXiv (Cornell University)|May 9, 2016

Visual Attention and Saliency Detection参考文献 26被引用 81

一句话总结

本文引入了一个大规模、人工标注的图像数据集，包含三百多万张图像，用于视觉情绪识别，其规模比现有最大的数据集扩大了30倍。通过使用微调卷积神经网络（CNN）提取的深度特征，作者证明了深度学习在性能上优于传统手工设计的视觉特征，为图像情绪识别建立了新的最先进基准。

ABSTRACT

Psychological research results have confirmed that people can have different emotional reactions to different visual stimuli. Several papers have been published on the problem of visual emotion analysis. In particular, attempts have been made to analyze and predict people's emotional reaction towards images. To this end, different kinds of hand-tuned features are proposed. The results reported on several carefully selected and labeled small image data sets have confirmed the promise of such features. While the recent successes of many computer vision related tasks are due to the adoption of Convolutional Neural Networks (CNNs), visual emotion analysis has not achieved the same level of success. This may be primarily due to the unavailability of confidently labeled and relatively large image data sets for visual emotion analysis. In this work, we introduce a new data set, which started from 3+ million weakly labeled images of different emotions and ended up 30 times as large as the current largest publicly available visual emotion data set. We hope that this data set encourages further research on visual emotion analysis. We also perform extensive benchmarking analyses on this large data set using the state of the art methods including CNNs.

研究动机与目标

为解决视觉情绪识别领域缺乏大规模、高质量标注数据集的问题。
评估深度卷积神经网络（CNN）在视觉情绪分析中相对于传统手工调优视觉特征的有效性。
利用最先进的深度学习方法，为视觉情绪识别建立新的基准。
将该数据集公开发布给研究社区，以加速情感计算与多媒体分析领域的研究进展。

提出的方法

基于与情绪相关的关键词，从在线来源收集了超过三百多万张弱标签图像。
利用亚马逊机械 Turk 获取每张图像的人工标注标签，最终形成一个包含八个情绪类别的强标签数据集：愉悦、敬畏、满足、兴奋、愤怒、厌恶、恐惧和悲伤。
使用最后的全连接层从预训练和微调的 CNN（如 ImageNet-CNN、带噪声微调的 CNN、微调的 CNN）中提取深度特征。
通过主成分分析（PCA）将特征维度从 4096 降低到 20，同时保留至少 90% 的方差。
使用类别特定惩罚的线性支持向量机（SVM）进行训练，通过五折交叉验证优化各类别的真正例率。
将深度特征的性能与多种最先进的手工特征集（如 Machajdik、Yanulevskaya、Wang、Zhao）进行对比。

实验结果

研究问题

RQ1与手工设计的视觉特征相比，深度卷积神经网络在视觉情绪识别任务中是否能实现更优的性能？
RQ2在情绪特定数据上对预训练 CNN 进行微调，如何影响不同情绪类别下的性能表现？
RQ3数据集规模和标注质量对深度学习模型在视觉情绪识别中性能的影响如何？
RQ4深度特征在不同情绪类别和数据分布（如真实照片与抽象绘画）之间的一致性如何？

主要发现

从微调 CNN 提取的深度特征在多个情绪类别中显著优于最先进的手工视觉特征，尤其在愉悦和敬畏等积极情绪类别中表现突出。
深度特征在不同情绪类别中的性能差异显著，例如在 ArtPhoto 数据集中，满足和恐惧类别的准确率较低，表明细粒度情绪识别仍面临持续挑战。
微调 CNN 在各类情绪类别中表现出更一致的性能，优于 ImageNet 预训练或带噪声微调的模型，表明领域自适应可提升模型鲁棒性。
在 SVM 训练中使用类别特定惩罚显著提升了各类别的真正例率，尤其对样本稀少的情绪（如愤怒）效果明显，其在两个数据集中分别仅有 8 和 3 张图像。
尽管在部分类别中表现优异，深度特征在某些情绪类别上仍表现不佳，表明即使采用深度学习，视觉情绪识别仍是具有挑战性的问题。
所提出的数据集包含超过三百万张人工标注图像，是此前最大公开数据集的 30 倍，可支持更稳健的基准测试与未来研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。