QUICK REVIEW

[论文解读] Learning Multi-level Deep Representations for Image Emotion Classification

Tianrong Rao, Min Xu|arXiv (Cornell University)|Nov 22, 2016

Image Retrieval and Classification Techniques参考文献 49被引用 26

一句话总结

该论文提出 MldrNet，一种深度卷积神经网络，通过从全局和局部视角学习多层次表征——图像语义、美学特征以及低层次视觉特征——以提升图像情感分类性能。通过侧支路与融合层融合多层次特征，MldrNet 在最先进方法基础上实现超过6%的准确率提升，尤其在抽象画作和噪声互联网数据集上表现优异。

ABSTRACT

In this paper, we propose a new deep network that learns multi-level deep representations for image emotion classification (MldrNet). Image emotion can be recognized through image semantics, image aesthetics and low-level visual features from both global and local views. Existing image emotion classification works using hand-crafted features or deep features mainly focus on either low-level visual features or semantic-level image representations without taking all factors into consideration. The proposed MldrNet combines deep representations of different levels, i.e. image semantics, image aesthetics, and low-level visual features to effectively classify the emotion types of different kinds of images, such as abstract paintings and web images. Extensive experiments on both Internet images and abstract paintings demonstrate the proposed method outperforms the state-of-the-art methods using deep features or hand-crafted features. The proposed approach also outperforms the state-of-the-art methods with at least 6% performance improvement in terms of overall classification accuracy.

研究动机与目标

解决现有图像情感分类方法仅依赖手工设计特征或单一层次深度特征的局限性。
克服在图像中情感通过语义、美学和低层次特征等多种因素传达时的情感分类挑战。
提升在从互联网收集的噪声性、现实世界数据集上的性能，其中情感标签可能不可靠。
开发一种深度学习框架，有效整合高层、中层和低层视觉表征，实现端到端学习。
在抽象画作和网络图像等具有挑战性的数据集上展示鲁棒性和优越性能，这些数据集中传统CNN表现欠佳。

提出的方法

提出一种多层级深度表征网络（MldrNet），通过侧支路提取不同层次的特征：高层语义、中层美学和低层视觉特征。
从预训练CNN的多个卷积层中提取深度表征，捕捉来自全局（高层）和局部（低层）视角的特征。
使用融合层结合多层次表征，实现语义、美学和低层特征的联合学习。
采用端到端训练策略，通过交叉熵损失函数在最后全连接层进行微调，以实现情感分类。
在类别不平衡的数据集上采用5折和10折交叉验证策略，以确保各类别性能评估的可靠性。
在类别不平衡的数据集上采用“一对多”策略训练分类器，尤其针对愤怒等稀有情感类别。

实验结果

研究问题

RQ1是否能够通过整合多层级视觉表征（语义、美学、低层特征）的深度学习模型，超越仅依赖单一层次表征的模型？
RQ2MldrNet 在抽象画作的情感分类任务中表现如何，其中情感主要通过纹理和色彩传达？
RQ3与标准CNN相比，MldrNet 在情感标签不可靠的噪声互联网数据集上，分类准确率提升程度如何？
RQ4多层级深度表征的融合是否能带来在多样化图像类型（包括网络图像和艺术作品）上的更鲁棒性能？
RQ5MldrNet 是否能比现有最先进方法泛化得更好，尤其是在每类情感训练数据有限或不平衡的情况下？

主要发现

在抽象画作的MART数据集上，MldrNet达到76.4%的准确率，显著优于AlexNet（69.8%）及其他基线方法如NLMC（72.8%）和LMC（71.8%）。
在IAPS-Subset和Abstract数据集上，MldrNet在大多数情感类别中均表现出一致的性能提升，尤其在手工特征方法和AlexNet表现欠佳的类别中优势明显。
与使用深度特征或手工特征的最先进方法相比，MldrNet整体分类准确率至少提升6%。
MldrNet在噪声性、互联网收集的数据集上表现出鲁棒性，降低了对高质量人工标注数据的依赖。
多层级表征的融合——尤其是中层美学特征与低层视觉特征——在抽象和艺术类图像上带来了显著的性能提升。
在ArtPhoto和Abstract数据集的5折交叉验证中，MldrNet在大多数情感类别上实现了最高的每类真正例率，表明其具备强大的类别泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。