[论文解读] Photo Aesthetics Ranking Network with Attributes and Content Adaptation
本文提出一种深度卷积神经网络,联合学习照片属性与图像内容,以预测细粒度的图像美学排名,采用新颖的类他人(Siamese)网络与评分者感知采样策略,提升模型与人类判断的一致性。该模型通过简单的阈值处理在AVA基准上实现最先进性能,其排名一致性优于平均人类评分者。
Real-world applications could benefit from the ability to automatically generate a fine-grained ranking of photo aesthetics. However, previous methods for image aesthetics analysis have primarily focused on the coarse, binary categorization of images into high- or low-aesthetic categories. In this work, we propose to learn a deep convolutional neural network to rank photo aesthetics in which the relative ranking of photo aesthetics are directly modeled in the loss function. Our model incorporates joint learning of meaningful photographic attributes and image content information which can help regularize the complicated photo aesthetics rating problem. To train and analyze this model, we have assembled a new aesthetics and attributes database (AADB) which contains aesthetic scores and meaningful attributes assigned to each image by multiple human raters. Anonymized rater identities are recorded across images allowing us to exploit intra-rater consistency using a novel sampling strategy when computing the ranking loss of training image pairs. We show the proposed sampling strategy is very effective and robust in face of subjective judgement of image aesthetics by individuals with different aesthetic tastes. Experiments demonstrate that our unified model can generate aesthetic rankings that are more consistent with human ratings. To further validate our model, we show that by simply thresholding the estimated aesthetic scores, we are able to achieve state-or-the-art classification performance on the existing AVA dataset benchmark.
研究动机与目标
- 为解决二元分类或回归式图像美学分类的局限性,实现图像美学的细粒度相对排名。
- 通过利用评分者内部一致性(即匿名评分者身份),提升模型对个体美学偏好的鲁棒性。
- 开发一种统一的深度学习框架,联合建模摄影属性与图像内容,以实现更准确、更具泛化能力的美学预测。
- 构建并发布一个新的数据集 AADB,包含详细的美学评分、属性注释及评分者身份,用于训练与评估。
- 证明模型在不同数据集间具有良好的泛化能力,并在AVA基准上实现最先进分类性能。
提出的方法
- 采用类他人网络架构预测图像对之间的相对美学排名,损失函数基于成对美学偏好建模。
- 模型联合预测整体美学得分与有意义的摄影属性(如构图、色彩、主体等),利用共享特征与分支特异性特征。
- 提出一种新颖的采样策略,选择内容相似且评分者偏好一致的图像对,以正则化训练并提升泛化能力。
- 训练过程中利用匿名评分者身份计算评分者内部一致性,增强模型与个体美学判断的一致性。
- 构建了一个新数据集 AADB,包含1,000多张图像,美学评分在1–5分制,属性注释,以及190多名人类标注者的身份信息。
- 采用端到端训练方式,结合排名损失与属性预测损失,利用内容聚类指导图像对采样。
实验结果
研究问题
- RQ1深度学习模型能否联合学习摄影属性与图像内容,以提升细粒度图像美学排名?
- RQ2通过匿名评分者身份引入评分者内部一致性,如何提升模型性能与对主观审美的鲁棒性?
- RQ3在多样化数据集上训练的统一模型,能否在现有基准(如AVA)上实现最先进性能?
- RQ4模型性能与个体人类评分者相比如何,特别是在排名一致性方面?
- RQ5模型在具有不同美学分布与评分者人口统计特征的数据集之间,泛化能力如何?
主要发现
- 所提模型在 AADB 数据集上达到斯皮尔曼等级相关系数 0.6782,优于平均人类评分者(ρ = 0.6738),并匹配最一致评分者的表现。
- 在 AVA 基准上,模型通过简单阈值处理实现最先进分类性能,斯皮尔曼 ρ 达 0.5154。
- 模型性能随采样策略中内容聚类数增加而提升,峰值出现在 K=10 个聚类,表明内容感知图像对选择的重要性。
- 标注超过200张图像的评分者平均一致性更高(ρ = 0.7112),且模型在排名一致性上优于所有评分者的平均值。
- 跨数据集评估显示 AADB 与 AVA 之间迁移能力有限,性能显著下降(如 AVA 测试集在 AADB 模型上的表现:ρ = 0.1566),表明数据集分布与评分者审美差异显著。
- 通过评分者感知采样,模型展现出对个体美学偏好的鲁棒性,显著提升了排名一致性,尽管人类判断存在主观差异。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。