QUICK REVIEW

[论文解读] A deep architecture for unified aesthetic prediction

Naila Murray, Albert Gordo|arXiv (Cornell University)|Aug 16, 2017

Visual Attention and Saliency Detection参考文献 43被引用 42

一句话总结

本文提出了一种统一的深度卷积神经网络——美学预测模型（Aesthetic Prediction Model, APM），可预测完整的美学得分分布，而不仅限于均值分数或二元标签。通过利用Huber损失，并采用一种新颖的微调策略，借助教师网络将ImageNet特征适配至任意长宽比，APM在三项任务——分布预测、回归与分类——中均达到当前最优性能，相较于先前方法在均值分数预测上的准确率提升2.1%，相对改进达27%。

ABSTRACT

Image aesthetics has become an important criterion for visual content curation on social media sites and media content repositories. Previous work on aesthetic prediction models in the computer vision community has focused on aesthetic score prediction or binary image labeling. However, raw aesthetic annotations are in the form of score histograms and provide richer and more precise information than binary labels or mean scores. Consequently, in this work we focus on the rarely-studied problem of predicting aesthetic score distributions and propose a novel architecture and training procedure for our model. Our model achieves state-of-the-art results on the standard AVA large-scale benchmark dataset for three tasks: (i) aesthetic quality classification; (ii) aesthetic score regression; and (iii) aesthetic score distribution prediction, all while using one model trained only for the distribution prediction task. We also introduce a method to modify an image such that its predicted aesthetics changes, and use this modification to gain insight into our model.

研究动机与目标

解决现有美学预测模型依赖二元标签或均值分数的局限性，这些方法会丢失人类标注中的宝贵分布信息。
开发一种深度学习架构，能够从无畸变的高分辨率、任意长宽比图像中预测完整的美学得分分布。
通过一种受知识蒸馏启发的方法微调预训练的ImageNet层，提升特征表示学习能力，同时保持语义判别性。
通过引入基于梯度的对抗性扰动图像修改技术，实现对模型决策过程的可解释性分析，突出显示影响美学判断的关键图像区域。
证明单一模型可在无需任务特异性微调的情况下，实现多个美学预测任务的卓越性能。

提出的方法

设计一种CNN架构，可处理具有任意长宽比的高分辨率图像，同时保持空间与语义完整性。
采用一种新颖的微调策略：利用‘教师’网络生成的软标签，对预训练的ImageNet卷积层进行再训练，使其在适应可变输入尺寸的同时保持强大的语义能力。
使用Huber损失进行模型训练，以回归至完整的美学得分分布，该损失相比均方误差对异常值更具鲁棒性。
引入一种基于梯度的图像修改方法，通过改变像素值来增加或减少预测的美学得分分布，从而可视化注意力区域。
利用生成的对抗性样本生成热力图，识别在美学判断中最具影响力的图像区域。
在AVA基准上端到端评估模型，采用分类、回归与分布预测的标准指标。

实验结果

研究问题

RQ1一个单一的深度学习模型是否能够通过学习完整的得分分布，在多个美学预测任务（包括分布预测、均值分数回归与二元分类）中实现最先进性能？
RQ2如何有效将预训练的ImageNet特征适配至高分辨率、任意长宽比图像的美学预测任务中，同时不损失语义判别性？
RQ3深度美学模型在进行预测时关注哪些视觉特征？这些关注点能否通过对抗性图像操控实现可解释？
RQ4与仅预测均值分数或使用二元分类头相比，建模完整得分分布能在多大程度上提升性能？
RQ5该模型对极端分布（如高度偏斜或双峰分布）的鲁棒性如何？其失效模式是什么？

主要发现

APM在AVA基准上实现最先进性能，为三项任务（分布预测、均值分数回归与二元分类）均创下新的SOTA结果。
与先前方法相比，分类准确率绝对提升2.1%，显著提高了预测性能。
在均值分数回归任务中，APM相较之前最佳方法实现27%的相对改进，凸显了分布感知训练的优势。
模型能够高保真地重建复杂得分分布，包括单峰与双峰模式，如定性对比所示。
对抗性图像修改表明，模型聚焦于显著且语义有意义的区域（如人脸与前景物体），表明其关注内容与构图，而不仅限于低级特征。
失败案例主要出现在训练数据中代表性不足的极偏斜或非高斯分布图像上，表明数据偏差是主要挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。