QUICK REVIEW

[论文解读] Dream Formulations and Deep Neural Networks: Humanistic Themes in the Iconology of the Machine-Learned Image

Emily L. Spratt|arXiv (Cornell University)|Jan 1, 2017

Aesthetic Perception and Analysis被引用 11

一句话总结

本文提出，深度学习图像识别系统（如 DeepDream 和 Grad-CAM）在解释性方面与人类主义视觉感知理论存在类比关系，特别是艾尔温·潘诺夫斯基的图像学理论和埃莉诺·罗施的原型理论。通过将机器学习的图像特征与人类感知框架进行比较，本研究表明，人工智能视觉系统隐含地编码了类似于艺术史学与认知心理学模型的结构化、分层的视觉理解，主张通过跨学科合作来塑造未来人工智能的解释方法。

ABSTRACT

This paper addresses the interpretability of deep learning-enabled image recognition processes in computer vision science in relation to theories in art history and cognitive psychology on the vision-related perceptual capabilities of humans. Examination of what is determinable about the machine-learned image in comparison to humanistic theories of visual perception, particularly in regard to art historian Erwin Panofsky’s methodology for image analysis and psychologist Eleanor Rosch’s theory of graded categorization according to prototypes, finds that there are surprising similarities between the two that suggest that researchers in the arts and the sciences would have much to benefit from closer collaborations. Utilizing the examples of Google’s DeepDream and the Machine Learning and Perception Lab at Georgia Tech’s Grad-CAM: Gradient-weighted Class Activation Mapping programs, this study suggests that a revival of art historical research in iconography and formalism in the age of AI is essential for shaping the future navigation and interpretation of all machine-learned images, given the rapid developments in image recognition technologies.

研究动机与目标

探究计算机视觉中的深度神经网络是否反映了人类主义视觉感知理论中的解释性框架。
通过艺术史图像学与认知心理学的视角，评估机器学习图像的可解释性。
识别人工智能生成的图像特征与人类感知分类过程之间的结构与概念相似性。
倡导在人工智能视觉系统的设计与解释中重新整合艺术史与形式主义方法。
将图像学与形式主义定位为应对快速发展的图像识别技术所带来解释挑战的关键工具。

提出的方法

以谷歌的 DeepDream 和佐治亚理工学院的 Grad-CAM 作为深度神经网络图像生成与激活映射的案例研究。
应用艾尔温·潘诺夫斯基的三级图像学分析法（前图像学、图像学与图像学逻辑解释）来解读机器学习的图像特征。
将神经网络中视觉特征的分层结构与埃莉诺·罗施基于原型的分级分类理论进行比较。
考察 Grad-CAM 中显著性图与特征图如何反映类似于人类视觉注意力与分类的感知显著性。
通过机器学习图像表征与人文学解释框架之间的定性比较，识别概念上的重叠。
提出一种通过艺术史与认知心理学方法论来解释人工智能生成图像的框架。

实验结果

研究问题

RQ1深度神经网络在图像识别系统中学习到的特征表征在多大程度上与人文学科的视觉感知模型相吻合？
RQ2DeepDream 与 Grad-CAM 的解释性结构在多大程度上反映了艺术史图像学与形式主义的原则？
RQ3神经网络中的显著性与激活模式在何种方式上与罗施所描述的基于原型的分类认知过程相呼应？
RQ4这些类比对提升人工智能视觉系统的可解释性与透明性具有何种影响？
RQ5艺术史与认知心理学理论如何能指导未来机器学习图像系统的设计与解释？

主要发现

深度神经网络中的分层特征抽象与潘诺夫斯基的三级图像学分析相吻合，表明人工智能系统隐含地执行分层图像解释。
Grad-CAM 生成的显著性图呈现出空间注意力模式，与人类视觉注意力在认知心理学中的焦点位置相对应。
罗施理论中的基于原型的分类在神经网络以中心化、代表性模式聚集特征的方式中得到体现。
本研究识别出机器学习图像表征与人文学解释框架之间的概念类比，表明视觉理解中存在共享的结构原则。
这些相似性表明，将艺术史与形式主义方法整合入人工智能研究，可增强图像生成结果的可解释性并减少歧义。
研究结果倡导计算机科学与人文学科之间的跨学科合作，以引导人工智能视觉技术的伦理化与有意义发展。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。