QUICK REVIEW

[論文レビュー] Large-scale Classification of Fine-Art Paintings: Learning The Right Metric on The Right Feature

Babak Saleh, Ahmed Elgammal|arXiv (Cornell University)|May 5, 2015

Aesthetic Perception and Analysis参考文献 21被引用数 74

ひとこと要約

本稿では、GIST、Classeme、PiCoDes、およびCNNなどの多様な視覚的特徴を、大マージン近傍ニューロン（LMNN）度合い学習と組み合わせることで、ファインアート絵画分類のための類似度測定を最適化する度合い学習フレームワークを提案する。主な貢献は、400次元の特徴表現を用いて、45.97%のスタイル分類精度を達成したことである。これは、最先端技術を上回りながら、特徴次元を90%まで低減した。

ABSTRACT

In the past few years, the number of fine-art collections that are digitized and publicly available has been growing rapidly. With the availability of such large collections of digitized artworks comes the need to develop multimedia systems to archive and retrieve this pool of data. Measuring the visual similarity between artistic items is an essential step for such multimedia systems, which can benefit more high-level multimedia tasks. In order to model this similarity between paintings, we should extract the appropriate visual features for paintings and find out the best approach to learn the similarity metric based on these features. We investigate a comprehensive list of visual features and metric learning approaches to learn an optimized similarity measure between paintings. We develop a machine that is able to make aesthetic-related semantic-level judgments, such as predicting a painting's style, genre, and artist, as well as providing similarity measures optimized based on the knowledge available in the domain of art historical interpretation. Our experiments show the value of using this similarity measure for the aforementioned prediction tasks.

研究の動機と目的

芸術史的概念（スタイル、ジャンル、作家）を反映する、ファインアート絵画のための頑健な類似度測定を構築すること。
低レベル（色、テクスチャ）から高レベル（深層CNN特徴）までの多様な視覚的特徴が、芸術的意味をどれだけ捉えられるかを評価すること。
芸術画像解析における意味的分類タスクに最適な視覚的特徴と度合い学習アルゴリズムの組み合わせを同定すること。
効率的な類似度計算を可能にする、コンactな高パフォーマンス特徴表現を構築すること。
学習された度合いが訓練ラベルを越えて一般化できることを検証し、異なるスタイル間の類似性検出を可能にすること。

提案手法

著者らは、デジタル化された絵画の大規模データセットから、GIST、Classeme、PiCoDes、および深層CNN特徴を含む包括的な視覚的特徴を抽出する。
複数の度合い学習アルゴリズム（Boost、ITML、LMNN、MKLR、NCA）を適用し、同じスタイル、ジャンル、または作家の絵画が特徴空間内で近接するように類似度度合いを学習する。
複数の100次元特徴ベクトル（例：GIST + Classeme + PiCoDes + CNN）を連結することで特徴統合を行い、1つの400次元表現を生成する。
LMNN度合いを用いて、類似クラス内距離を最大化し、異類間分離を強化する新しい特徴空間に変換する。
分類は、変換された特徴空間上でSVMを訓練し、スタイル、ジャンル、作家予測タスクで性能を評価する。
LMNN + 特徴統合モデルを用いた、質的画像検索プロトタイプを実装し、異なるスタイル間の類似性マッチングを評価する。

実験結果

リサーチクエスチョン

RQ1ファインアート絵画における芸術史的意味（スタイル、ジャンル、作家）を捉えるために、どの視覚的特徴が最も効果的か？
RQ2異なる度合い学習アルゴリズムは、芸術分類タスクの類似度測定最適化において、どのように比較されるか？
RQ3スタイルラベルに基づいて学習された度合いは、異なるスタイル間で意味のある類似性を発見できるか？
RQ4分類精度を最大化するための、視覚的特徴と度合い学習手法の最適な組み合わせは何か？
RQ5計算コストを低減しつつ高いパフォーマンスを維持できる、コンactで低次元の特徴表現を学習できるか？

主な発見

Classeme特徴は、使用する度合い学習手法に関わらず、すべての3つの分類タスク（スタイル、ジャンル、作家）において、他の個々の特徴を一貫して上回る性能を示す。
統合特徴において、大マージン近傍点（LMNN）度合い学習が最高の分類精度を達成した：スタイル分類で45.97%、ジャンル分類で58.48%、作家分類で63.06%。
LMNN最適化の400次元特徴ベクトル（4つの100次元特徴の連結から得られる）は、スタイル分類において最先端のパフォーマンスを達成しているが、先行研究と比較して特徴次元を90%まで低減している。
システムは、異なるスタイル間で視覚的に類似した絵画を効果的に検索でき、学習された度合いが厳密なラベル境界を越えて一般化していることを示している。
BoostおよびITML度合い学習手法は、すべての個々の特徴タイプで分類精度を向上させるが、統合設定ではLMNNに劣る。
プロトタイプ画像検索システムは、学習された度合いが意味的な異スタイルマッチングを同定できることを確認しており、検索およびレコメンデーション応用における実用性を裏付けている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。