[论文解读] Materials In Paintings (MIP): An interdisciplinary dataset for perception, art history, and computer vision
本文介绍了材料在绘画中(MIP)数据集,这是一个大规模、跨学科的绘画数据集,包含19,000幅绘画作品,标注了超过200,000个边界框和多边形分割区域,每个区域均标注了粗粒度(如织物)和细粒度(如丝绒般、丝滑般)的材料类别。该数据集支持艺术史、人类感知和计算机视觉领域的跨学科研究,表明在绘画上训练的模型能学习到与人类感知一致的视觉线索,从而构建更鲁棒且与人类认知对齐的视觉系统。
A painter is free to modify how components of a natural scene are depicted, which can lead to a perceptually convincing image of the distal world. This signals a major difference between photos and paintings: paintings are explicitly created for human perception. Studying these painterly depictions could be beneficial to a multidisciplinary audience. In this paper, we capture and explore the painterly depictions of materials to enable the study of depiction and perception of materials through the artists' eye. We annotated a dataset of 19k paintings with 200k+ bounding boxes from which polygon segments were automatically extracted. Each bounding box was assigned a coarse label (e.g., fabric) and a fine-grained label (e.g., velvety, silky). We demonstrate the cross-disciplinary utility of our dataset by presenting novel findings across art history, human perception, and computer vision. Our experiments include analyzing the distribution of materials depicted in paintings, showing how painters create convincing depictions using a stylized approach, and demonstrating how paintings can be used to build more robust computer vision models. We conclude that our dataset of painterly material depictions is a rich source for gaining insights into the depiction and perception of materials across multiple disciplines. The MIP dataset is freely accessible at https://materialsinpaintings.tudelft.nl
研究动机与目标
- 创建一个大规模、跨学科的绘画中材料描绘数据集,以弥合艺术史、人类感知与计算机视觉之间的差距。
- 探究画家如何通过风格化手法表现材料,以创造不依赖物理准确性的逼真视觉效果。
- 支持对艺术家用于传达材料属性(如光泽度、柔软度和透明度)的视觉线索的全新研究。
- 探索在绘画上训练计算机视觉模型是否能带来比基于照片训练更符合人类认知且更具鲁棒性的感知能力。
- 提供一个免费开放的资源,支持多学科研究,并促进对艺术中材料描绘的大规模分析。
提出的方法
- 从公共领域艺术收藏中收集了19,000幅绘画作品,重点关注材料的多样化描绘。
- 利用实例分割技术,从边界框中自动提取多边形分割区域。
- 基于材料属性,为每个分割区域标注粗粒度标签(如织物、玻璃)和细粒度标签(如丝绒般、丝滑般、有光泽的)。
- 建立材料类别与属性的分类体系,以支持细粒度感知与分类任务。
- 在绘画和照片上分别训练计算机视觉分类器,以比较其对视觉线索的偏好和模型鲁棒性。
- 开展人类感知研究,评估人类对绘画训练模型与照片训练模型所生成线索的偏好程度。
实验结果
研究问题
- RQ1画家如何通过风格化手法表现材料,以创造虽偏离物理准确性但具有高度感知真实感的图像?
- RQ2画家在表现特定材料属性(如光泽度或柔软度)时,会一致使用哪些视觉线索?
- RQ3在感知一致性与人类判断的对齐程度方面,基于绘画训练的计算机视觉模型与基于照片训练的模型相比表现如何?
- RQ4绘画风格的图像能否作为视觉模型更鲁棒的训练信号,特别是在泛化能力和分布外性能方面?
- RQ5艺术家使用哪些感知捷径(如玻璃上的典型高光)来触发对材料的稳健感知?
主要发现
- 画家系统性地使用风格化、非物理准确的视觉线索(如玻璃上特定形状与分布的高光)来创造具有高度感知真实感的描绘。
- 在对绘画中羊毛/棉质材料进行分类时,人类观察者在73.2%的情况下更偏好由绘画训练的模型生成的线索,表明其与人类感知的对齐程度更强。
- 尽管在训练过程中从未接触过照片,绘画训练的分类器在丝绸/缎面照片上的表现与照片训练的分类器相当,且人类对两者生成的线索偏好程度无显著差异。
- MIP数据集使研究者能够发现基于感知的“配方”,例如玻璃高光的典型描绘方式,这些模式可从标注中反向工程还原。
- 在绘画中训练的计算机视觉模型学习到了与人类感知更一致的视觉线索,表明绘画风格的图像可提升模型的鲁棒性与泛化能力。
- 该数据集揭示了艺术史中材料描绘具有高度可变性且依赖于具体语境,不同文化与时期呈现出独特的风格化模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。