QUICK REVIEW

[논문 리뷰] Materials In Paintings (MIP): An interdisciplinary dataset for perception, art history, and computer vision

Mitchell van Zuijlen, Hubert Lin|arXiv (Cornell University)|2020. 12. 05.

Aesthetic Perception and Analysis참고 문헌 113인용 수 18

한 줄 요약

이 논문은 예술사, 인간 인지, 컴퓨터 비전 분야 간의 격차를 메우기 위해 19,000幅의 그림을 포함하고, 200,000개 이상의 경계 상자와 다边형 세그먼트로 레이블링된 대량의 다학제적 데이터셋인 Materials In Paintings(MIP) 데이터셋을 소개한다. 각 레이블은 굵은(예: 천) 및 세밀한(예: 터치감 있는, 매끄러운) 재질 카테고리로 구성되어 있다. 이 데이터셋은 예술사, 인간 인지, 컴퓨터 비전 분야 간의 교차연구를 가능하게 하며, 그림 기반으로 학습된 모델이 인간의 인지와 일치하는 특징을 학습함으로써 더 강력하고 인간 중심적인 비전 시스템을 구현함을 보여준다.

ABSTRACT

A painter is free to modify how components of a natural scene are depicted, which can lead to a perceptually convincing image of the distal world. This signals a major difference between photos and paintings: paintings are explicitly created for human perception. Studying these painterly depictions could be beneficial to a multidisciplinary audience. In this paper, we capture and explore the painterly depictions of materials to enable the study of depiction and perception of materials through the artists' eye. We annotated a dataset of 19k paintings with 200k+ bounding boxes from which polygon segments were automatically extracted. Each bounding box was assigned a coarse label (e.g., fabric) and a fine-grained label (e.g., velvety, silky). We demonstrate the cross-disciplinary utility of our dataset by presenting novel findings across art history, human perception, and computer vision. Our experiments include analyzing the distribution of materials depicted in paintings, showing how painters create convincing depictions using a stylized approach, and demonstrating how paintings can be used to build more robust computer vision models. We conclude that our dataset of painterly material depictions is a rich source for gaining insights into the depiction and perception of materials across multiple disciplines. The MIP dataset is freely accessible at https://materialsinpaintings.tudelft.nl

연구 동기 및 목표

예술사, 인간 인지, 컴퓨터 비전 간의 격차를 메우기 위해, 그림으로 묘사된 재질에 대한 대규모 다학제적 데이터셋을 구축하기.
화가들이 물리적 정확성에 의존하지 않고도 시각적으로 설득력 있는 재질 표현을 위해 어떤 방식으로 스타일화하는지 탐구하기.
재질의 특성(예: 반사도, 부드러움, 투명도)을 전달하기 위해 예술가들이 사용하는 시각적 특징에 대해 새로운 연구를 가능하게 하기.
사진 기반 학습 대비 그림 기반 학습이 인간 중심의 인식과 더 잘 일치하고, 더 강건한 인식 성능을 발휘하는지 탐구하기.
다학제적 연구를 지원하고 예술적 재질 묘사의 대규모 분석을 가능하게 하는 무료 접근 가능한 자원을 제공하기.

제안 방법

다양한 재질 묘사를 포함한 공공 영역 예술 컬렉션에서 19,000幅의 그림을 수집하였다.
개체 세분화 기법을 사용하여 경계 상자에서 자동으로 다각형 세그먼트를 추출하였다.
각 세그먼트에 대해 재질 특성에 기반한 굵은 레이블(예: 천, 유리)과 세밀한 레이블(예: 터치감 있는, 매끄러운, 반사도 있는)을 할당하였다.
세밀한 인지 및 분류 작업을 지원하기 위해 재질 카테고리와 특성의 분류 체계를 수립하였다.
그림과 사진 양쪽에서 컴퓨터 비전 분류기를 학습시켜, 인지적 특징 선호도와 모델의 강건성의 차이를 비교하였다.
사람의 인지 실험을 수행하여 그림 기반 학습 모델과 사진 기반 학습 모델에서 유도된 특징의 선호도를 평가하였다.

실험 결과

연구 질문

RQ1화가들은 물리적 정확성에서 벗어나 시각적으로 설득력 있는 묘사를 위해 재질을 어떻게 스타일화하는가?
RQ2특정 재질 특성(예: 반사도, 부드러움)을 표현하기 위해 화가들이 일관되게 사용하는 시각적 특징은 무엇인가?
RQ3사진 기반 학습 모델 대비 그림 기반 학습 모델이 인간 판단과 얼마나 인지적으로 일치하는가?
RQ4특히 일반화 능력과 분포 외 성능에서, 그림 기반 묘사가 비전 모델의 훈련 신호로 더 강건한가?
RQ5예를 들어, 유리 표면에 전형적인 하이라이트를 사용하여 강건한 재질 인식을 유도하는 등의 인지적 단서는 무엇인가?

주요 결과

화가들은 물리적 정확성에서 벗어나 특정 하이라이트의 형태와 분포를 사용하여 시각적으로 설득력 있는 묘사를 위해 체계적으로 스타일화된 특징을 활용한다.
사람 관찰자들은 그림 기반 학습 모델에서 도출된 특징을 73.2%의 비율로 선호하였으며, 이는 더 강한 인지적 일치를 의미한다.
훈련 과정에서 사진을 한 번도 접하지 않은 그림 기반 학습 분류기는 실험에서 실크/시스루 직물 사진에 대해 사진 기반 학습 분류기와 유사한 성능을 보였으며, 인간 관찰자들은 두 모델의 특징을 동일하게 선호하였다.
MIP 데이터셋을 통해 유리 표면의 전형적 하이라이트 묘사와 같은 인지 기반의 '요리법'을 발견할 수 있었으며, 이는 레이블링 데이터에서 역공학적으로 추론 가능하다.
그림 기반 학습을 통해 학습된 컴퓨터 비전 모델은 인간 인지와 더 잘 일치하는 특징을 학습하였으며, 이는 그림 기반 묘사가 강건성과 일반화 능력을 향상시킬 수 있음을 시사한다.
데이터셋은 예술사에서 재질 묘사가 매우 다양하고 맥락에 따라 달라지며, 문화 및 시대에 따라 뚜렷한 스타일 패턴이 나타남을 드러냈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.