[論文レビュー] Materials In Paintings (MIP): An interdisciplinary dataset for perception, art history, and computer vision
本稿では、19,000枚の絵画を含み、200,000個以上のバウンディングボックスおよびポリゴンセグメンテーションでアノテートされた大規模かつ多分野にまたがるMIP(Materials In Paintings)データセットを紹介する。各アノテーションは、粗い分類(例:布地)および細分化された分類(例:ベロア質、シルキー質)の材料カテゴリでラベル付けされている。このデータセットは、美術史、人間の知覚、コンピュータビジョンの分野における横断的研究を可能にし、絵画で学習したモデルが知覚的に整合した特徴量を学習することを示しており、より強固で人間の知覚に適合したビジョンシステムの構築に寄与する。
A painter is free to modify how components of a natural scene are depicted, which can lead to a perceptually convincing image of the distal world. This signals a major difference between photos and paintings: paintings are explicitly created for human perception. Studying these painterly depictions could be beneficial to a multidisciplinary audience. In this paper, we capture and explore the painterly depictions of materials to enable the study of depiction and perception of materials through the artists' eye. We annotated a dataset of 19k paintings with 200k+ bounding boxes from which polygon segments were automatically extracted. Each bounding box was assigned a coarse label (e.g., fabric) and a fine-grained label (e.g., velvety, silky). We demonstrate the cross-disciplinary utility of our dataset by presenting novel findings across art history, human perception, and computer vision. Our experiments include analyzing the distribution of materials depicted in paintings, showing how painters create convincing depictions using a stylized approach, and demonstrating how paintings can be used to build more robust computer vision models. We conclude that our dataset of painterly material depictions is a rich source for gaining insights into the depiction and perception of materials across multiple disciplines. The MIP dataset is freely accessible at https://materialsinpaintings.tudelft.nl
研究の動機と目的
- 美術史、人間の知覚、コンピュータビジョンの分野におけるギャップを埋めるために、材料の画家的描写を大規模かつ多分野にわたるデータセットとして構築すること。
- 画家が物理的正確性に依存せずに、知覚的に説得力のある表現を得るためにどのように材料をスタイル化するかを調査すること。
- 光沢、柔らかさ、透明性などの材料特性を伝えるためにアーティストが用いる視覚的特徴を解明する新しい研究を可能にすること。
- 写真ベースの学習とは対照的に、絵画で学習させたコンピュータビジョンモデルが、人間の判断とより一致する知覚的性能を示すかどうかを検証すること。
- 多分野の研究を支援し、芸術的材料表現のスケールアップ分析を促進する、自由に利用可能なリソースを提供すること。
提案手法
- 公的ドメインの美術コレクションから19,000枚の絵画を収集し、材料の多様な描写に焦点を当てた。
- インスタンスセグメンテーション技術を用いて、バウンディングボックスから自動的にポリゴンセグメンテーションを抽出した。
- 各セグメンテーションに対して、材料の性質に基づき、粗いラベル(例:ガラス、布地)と細分化されたラベル(例:ベロア質、シルキー質、光沢あり)をラベル付けした。
- 細分化された知覚および分類タスクを支援するため、材料カテゴリと性質の分類体系を確立した。
- 写真と絵画の両方でコンピュータビジョン分類器を学習させ、特徴量の好みとモデルの頑健性を比較した。
- 人間の知覚研究を実施し、絵画で学習したモデルと写真で学習したモデルの特徴量の好みを評価した。
実験結果
リサーチクエスチョン
- RQ1画家は物理的正確性とは異なるが、知覚的に説得力のある描写を得るために、材料をどのようにスタイル化するか?
- RQ2光沢や柔らかさといった特定の材料特性を表すために、画家が一貫して用いる視覚的特徴は何か?
- RQ3写真で学習したモデルと比較して、絵画で学習したモデルは人間の判断とどの程度知覚的に一致するか?
- RQ4特に一般化性能や分布外性能において、絵画的描写がビジョンモデルの学習信号としてより頑健であると言えるか?
- RQ5ガラスに特徴的なハイライトのパターンといった、知覚の短絡的戦略は、アーティストがどのように材料の知覚を強化するために用いるか?
主な発見
- 画家は、物理的に正確でないが、知覚的に説得力のある特徴(例:ガラスに特徴的なハイライトの形状や分布)を体系的に用いて描写している。
- 絵画で学習したモデルの特徴量が、絵画内のウール/コットン素材を分類する際、73.2%の割合で人間の観察者に好まれており、より強い知覚的整合性を示している。
- トレーニング中に写真に触れることのない絵画で学習した分類器は、シルク/サテンの写真においても写真で学習した分類器と同等の性能を示し、人間は両者の特徴量を同様に好んでいた。
- MIPデータセットにより、ガラスのハイライトの特徴的な描写といった、知覚に基づく「レシピ」の発見が可能となり、アノテーションから逆算可能である。
- 絵画で学習したコンピュータビジョンモデルは、人間の知覚により適合した特徴量を学習しており、これは絵画的描写がモデルの頑健性と一般化性能を向上させうることを示唆している。
- データセットは、美術史における材料描写が極めて多様で文脈依存的であり、文化や時代ごとに明確なスタイル的パターンが顕在していることを明らかにした。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。