QUICK REVIEW

[논문 리뷰] Dream Formulations and Deep Neural Networks: Humanistic Themes in the Iconology of the Machine-Learned Image

Emily L. Spratt|arXiv (Cornell University)|2017. 01. 01.

Aesthetic Perception and Analysis인용 수 11

한 줄 요약

이 논문은 딥러닝 이미지 인식 시스템인 DeepDream과 Grad-CAM이 에르빈 파노프스키의 상징론과 엘레노어 로슈의 원형 이론과 같은 인문학적 시각 인식 이론과 해석적 유사성을 보이며, 기계 학습된 이미지 특징을 인간의 지각 프레임워크와 비교함으로써, 인공지능 비전 시스템이 예술사학적 및 인지심리학적 모델과 유사한 구조적이고 계층적인 시각 이해를 암묵적으로 내재하고 있음을 입증한다. 이는 향후 AI 해석을 위한 다학제적 협업의 필요성을 주장한다.

ABSTRACT

This paper addresses the interpretability of deep learning-enabled image recognition processes in computer vision science in relation to theories in art history and cognitive psychology on the vision-related perceptual capabilities of humans. Examination of what is determinable about the machine-learned image in comparison to humanistic theories of visual perception, particularly in regard to art historian Erwin Panofsky’s methodology for image analysis and psychologist Eleanor Rosch’s theory of graded categorization according to prototypes, finds that there are surprising similarities between the two that suggest that researchers in the arts and the sciences would have much to benefit from closer collaborations. Utilizing the examples of Google’s DeepDream and the Machine Learning and Perception Lab at Georgia Tech’s Grad-CAM: Gradient-weighted Class Activation Mapping programs, this study suggests that a revival of art historical research in iconography and formalism in the age of AI is essential for shaping the future navigation and interpretation of all machine-learned images, given the rapid developments in image recognition technologies.

연구 동기 및 목표

컴퓨터 시각 분야의 딥 네트워크가 인간적 시각 인식 이론에서 찾을 수 있는 해석적 프레임워크를 반영하는지 조사하는 것.
예술사학적 상징론과 인지심리학적 시각을 통해 기계 학습된 이미지의 해석 가능성 평가하기.
AI가 생성한 이미지 특징과 인간의 지각 분류 과정 간의 구조적 및 개념적 유사성 파악하기.
미래의 AI 비전 시스템 개발 및 해석에 예술사학적 및 형식주의 방법론을 재통합할 것을 주장하기.
상징론과 형식주의를 빠르게 발전하는 이미지 인식 기술의 해석적 과제를 극복하는 데 핵심 도구로 위치시키기.

제안 방법

딥러닝 네트워크의 이미지 생성 및 활성도 매핑 사례로 Google의 DeepDream과 조지아 테크의 Grad-CAM 분석하기.
에르빈 파노프스키의 3단계 상징론 분석(예비 상징론, 상징론, 상징론적 해석)을 기반으로 기계 학습된 이미지 특징 해석하기.
신경망 내 시각적 특징의 계층적 정렬 방식을 엘레노어 로슈의 원형 기반 계층적 분류 이론과 비교하기.
Grad-CAM의 선명도 매핑 및 특징 매핑이 인간의 시각 주의와 분류 과정과 유사한 지각적 선명도를 반영하는 방식 분석하기.
기계 학습된 이미지 표현과 인문학적 해석적 프레임워크 간의 질적 비교를 통해 개념적 겹침 식별하기.
예술사학적 및 인지심리학적 방법론의 시각에서 AI가 생성한 이미지를 해석하는 프레임워크 제안하기.

실험 결과

연구 질문

RQ1딥 네트워크가 이미지 인식 시스템에서 학습한 특징 표현 방식이 인간적 시각 인식 이론과 어느 정도 일치하는가?
RQ2DeepDream과 Grad-CAM의 해석적 구조는 예술사학적 상징론과 형식주의 원칙을 어느 정도 반영하는가?
RQ3신경망 내 선명도 및 활성도 패턴이 로슈가 묘사한 원형 기반 분류의 인지 과정과 어떻게 유사한가?
RQ4이 유사성은 AI 비전 시스템의 해석 가능성과 투명성을 향상시키는 데 어떤 함의를 지니는가?
RQ5예술사학적 및 인지심리학적 이론은 향후 기계 학습된 이미지 시스템의 설계 및 해석에 어떻게 기여할 수 있는가?

주요 결과

딥 네트워크의 계층적 특징 추상화 방식은 파노프스키의 3단계 상징론 분석과 유사하며, 이는 AI 시스템이 암묵적으로 계층적 이미지 해석을 수행하고 있음을 시사한다.
Grad-CAM이 생성한 선명도 매핑은 공간적 주의 패턴을 보이며, 인지심리학에서 인간의 시각 집중과 유사한 지각적 선명도를 반영한다.
로슈의 이론에서의 원형 기반 분류 개념은 신경망이 이미지 데이터 내 중심적이고 대표적인 패턴을 중심으로 특징을 군집화하는 방식과 공명한다.
이 연구는 기계 학습된 이미지 표현과 인문학적 해석적 프레임워크 간의 개념적 유사성을 식별하여, 시각 이해의 공통된 구조적 원리가 존재함을 시사한다.
이러한 유사성은 예술사학적 및 형식주의적 방법론을 AI 연구에 통합함으로써 기계 학습된 이미지 출력의 해석 가능성 향상과 모호성 감소에 기여할 수 있음을 시사한다.
연구 결과는 컴퓨터 과학과 인문학 간의 다학제적 협업을 통해 AI 비전 기술의 윤리적이고 의미 있는 발전을 이끌어내야 한다고 주장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.