QUICK REVIEW

[论文解读] Large-scale Classification of Fine-Art Paintings: Learning The Right Metric on The Right Feature

Babak Saleh, Ahmed Elgammal|arXiv (Cornell University)|May 5, 2015

Aesthetic Perception and Analysis参考文献 21被引用 74

一句话总结

本文提出了一种度量学习框架，将多种视觉特征（如GIST、Classeme、PiCoDes和CNN）与大边缘最近邻（LMNN）度量学习相结合，以优化细粒度艺术绘画分类的相似性度量。主要贡献在于一种400维的特征表示，其在风格分类中达到45.97%的准确率，优于当前最先进方法，同时将特征维度降低了90%。

ABSTRACT

In the past few years, the number of fine-art collections that are digitized and publicly available has been growing rapidly. With the availability of such large collections of digitized artworks comes the need to develop multimedia systems to archive and retrieve this pool of data. Measuring the visual similarity between artistic items is an essential step for such multimedia systems, which can benefit more high-level multimedia tasks. In order to model this similarity between paintings, we should extract the appropriate visual features for paintings and find out the best approach to learn the similarity metric based on these features. We investigate a comprehensive list of visual features and metric learning approaches to learn an optimized similarity measure between paintings. We develop a machine that is able to make aesthetic-related semantic-level judgments, such as predicting a painting's style, genre, and artist, as well as providing similarity measures optimized based on the knowledge available in the domain of art historical interpretation. Our experiments show the value of using this similarity measure for the aforementioned prediction tasks.

研究动机与目标

开发一种稳健的相似性度量，用于细粒度艺术绘画，以反映艺术史概念，如风格、流派和艺术家。
评估从低层次（颜色、纹理）到高层次（深度CNN特征）的多样化视觉特征在捕捉艺术语义方面的有效性。
识别用于艺术图像分析中语义级分类任务的最优视觉特征与度量学习算法组合。
构建一种紧凑且高性能的特征表示，以实现高效的距离计算，适用于检索与推荐系统。
验证所学度量在训练标签之外的泛化能力，支持跨风格相似性检测。

提出的方法

作者从大规模数字化绘画数据集中提取了全面的视觉特征，包括GIST、Classeme、PiCoDes以及深度CNN特征。
应用多种度量学习算法（Boost、ITML、LMNN、MKLR和NCA），学习一种相似性度量，使同一风格、流派或艺术家的绘画在特征空间中更紧密聚集。
通过拼接多个100维特征向量（如GIST + Classeme + PiCoDes + CNN）形成单一的400维表示。
使用LMNN度量将融合后的特征空间映射到新空间，以最大化类内接近度并增强类间分离度。
在变换后的特征空间上使用SVM进行分类，性能在风格、流派和艺术家预测任务上进行评估。
实现了一个定性图像检索原型，利用LMNN + 特征融合模型评估跨风格相似性匹配效果。

实验结果

研究问题

RQ1哪些视觉特征在捕捉细粒度艺术绘画中的艺术史语义（如风格、流派和艺术家）方面最为有效？
RQ2不同度量学习算法在优化艺术分类任务的相似性度量方面表现如何比较？
RQ3基于风格标签学习的度量是否能泛化以发现不同风格之间的有意义相似性？
RQ4何种视觉特征与度量学习方法的组合可最大化分类准确率？
RQ5能否学习到一种紧凑的低维特征表示，在保持高性能的同时降低计算成本？

主要发现

无论使用何种度量学习方法，Classeme特征在所有三项分类任务（风格、流派、艺术家）中均持续优于其他单一特征。
在融合特征中，大边缘最近点（LMNN）度量学习达到最高分类准确率：风格分类为45.97%，流派分类为58.48%，艺术家分类为63.06%。
经LMNN优化的400维特征向量（由四个100维特征拼接而成）在风格分类中达到当前最先进性能，同时相比先前工作将特征维度降低了90%。
该系统成功检索到不同风格之间的视觉相似绘画，表明所学度量能超越严格标签边界的泛化能力。
Boost和ITML度量学习方法在所有单一特征类型上均提升了分类准确率，但在融合设置中仍不及LMNN。
原型图像搜索系统证实，所学度量能够识别出有意义的跨风格匹配，验证了其在检索与推荐应用中的实用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。