QUICK REVIEW

[论文解读] The Cross-Depiction Problem: Computer Vision Algorithms for Recognising Objects in Artwork and in Photographs

Hongping Cai, Qi Wu|arXiv (Cornell University)|May 1, 2015

Advanced Image and Video Retrieval Techniques参考文献 42被引用 31

一句话总结

本文研究了计算机视觉中的跨表现形式问题——即在绘画、素描和照片等不同艺术风格中识别物体——表明当前方法（包括深度学习）在非照片类表现形式上测试时性能显著下降。关键发现是，强调空间部件关系和结构布局的模型优于基于外观的方法，表明结构抽象比视觉外观更具鲁棒性，适用于跨表现形式识别。

ABSTRACT

The cross-depiction problem is that of recognising visual objects regardless of whether they are photographed, painted, drawn, etc. It is a potentially significant yet under-researched problem. Emulating the remarkable human ability to recognise objects in an astonishingly wide variety of depictive forms is likely to advance both the foundations and the applications of Computer Vision. In this paper we benchmark classification, domain adaptation, and deep learning methods; demonstrating that none perform consistently well in the cross-depiction problem. Given the current interest in deep learning, the fact such methods exhibit the same behaviour as all but one other method: they show a significant fall in performance over inhomogeneous databases compared to their peak performance, which is always over data comprising photographs only. Rather, we find the methods that have strong models of spatial relations between parts tend to be more robust and therefore conclude that such information is important in modelling object classes regardless of appearance details.

研究动机与目标

识别并解决计算机视觉中尚未充分研究的跨表现形式问题，即在绘画、素描和照片等多样化艺术表现形式中实现物体识别。
在新构建的异构数据集上对现有分类、域适应和深度学习方法进行基准测试，以评估其在不同表现风格下的鲁棒性。
探究为何最先进识别模型（包括深度学习）在非照片类艺术作品上测试时性能显著下降，尽管其在照片数据上表现优异。
探索物体部件之间的结构与空间关系是否可作为比低级视觉外观特征更鲁棒的识别基础。
提出一种以建模空间布局与结构抽象为核心的新研究方向，以实现跨表现形式的鲁棒性。

提出的方法

构建了两个新数据集——Photo-Art-50 和 Photo-Art-100，包含50种和100种物体类别在照片与艺术表现形式中的均衡且多样的样本。
在两个数据集上评估了包括 HOG-BoW、DPM、M-Graph 和深度学习模型（如 ResNet、VGG）在内的多种方法，以比较其在不同领域中的性能。
使用带空间约束的部件模型，如可变形部件模型（DPM）和 M-Graph，显式编码物体部件之间的几何关系。
应用形态抽象与基于图的表示方法，以建模结构与布局，实现对特定视觉外观的独立识别。
在照片数据上训练模型，并在艺术表现形式上进行测试，以衡量性能下降，评估其在不同表现风格间的泛化能力。
采用非真实感渲染技术，从真实照片生成风格化图像，验证结构抽象是否能保持可识别性。

实验结果

研究问题

RQ1当前计算机视觉模型（包括深度学习）从照片图像泛化到相同物体的艺术表现形式的程度如何？
RQ2在鲁棒的跨表现形式物体识别中，视觉属性（外观、形状或空间结构）中哪一个最为关键？
RQ3是否显式编码物体部件间空间关系的模型在跨表现形式场景中优于基于外观的模型？
RQ4为何深度学习模型尽管在照片数据上表现优异，但在艺术表现形式上测试时仍出现显著性能下降？
RQ5在不同表现形式的物体识别中，是否存在建模视觉外观与结构抽象之间的根本性权衡？

主要发现

所有测试方法（包括深度学习模型）在从照片数据转移到艺术表现形式时均出现显著性能下降，其中基于外观的模型（如 HOG-BoW）下降幅度最大。
具备强空间建模能力的模型（如 DPM 和 M-Graph）在跨表现形式任务中表现出更强鲁棒性，表明空间布局比低级视觉特征更可靠。
M-Graph 模型通过编码部件间复杂的空间关系，在艺术表现形式上优于 DPM 及其他方法，表明结构抽象可增强泛化能力。
性能下降的唯一例外是文献 [59] 中提出的方法，其通过在每个节点使用多个标签来同时建模外观与结构，表明显式结构建模是实现鲁棒性的关键。
深度学习方法在 Photo-Art-50 上若在照片数据上进行训练和测试，可达到高准确率，但当在艺术作品上测试时性能显著下降，表明其本身不具备对跨表现形式的内在鲁棒性。
结果表明，人们识别物体并非通过匹配特定外观，而是通过感知结构与空间构型，而当前模型未能有效模拟这一机制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。