QUICK REVIEW

[論文レビュー] Photo Aesthetics Ranking Network with Attributes and Content Adaptation

Shu Kong, Xiaohui Shen|arXiv (Cornell University)|Jun 6, 2016

Visual Attention and Saliency Detection参考文献 25被引用数 40

ひとこと要約

本論文は、写真的属性と画像コンテンツを同時に学習して、細分化された写真の美的評価順位を予測するための深層畳み込みニューラルネットワークを提案する。独自のラッパー認識型サンプリングを備えた新しいシアンプスネットワークを用いることで、人間の判断との一貫性が向上する。モデルは単純なしきい値処理によりAVAベンチマークで最先端の性能を達成し、平均的人間の評価者を上回る順位一貫性を示す。

ABSTRACT

Real-world applications could benefit from the ability to automatically generate a fine-grained ranking of photo aesthetics. However, previous methods for image aesthetics analysis have primarily focused on the coarse, binary categorization of images into high- or low-aesthetic categories. In this work, we propose to learn a deep convolutional neural network to rank photo aesthetics in which the relative ranking of photo aesthetics are directly modeled in the loss function. Our model incorporates joint learning of meaningful photographic attributes and image content information which can help regularize the complicated photo aesthetics rating problem. To train and analyze this model, we have assembled a new aesthetics and attributes database (AADB) which contains aesthetic scores and meaningful attributes assigned to each image by multiple human raters. Anonymized rater identities are recorded across images allowing us to exploit intra-rater consistency using a novel sampling strategy when computing the ranking loss of training image pairs. We show the proposed sampling strategy is very effective and robust in face of subjective judgement of image aesthetics by individuals with different aesthetic tastes. Experiments demonstrate that our unified model can generate aesthetic rankings that are more consistent with human ratings. To further validate our model, we show that by simply thresholding the estimated aesthetic scores, we are able to achieve state-or-the-art classification performance on the existing AVA dataset benchmark.

研究の動機と目的

二値または回帰ベースの画像美的評価分類の限界を克服し、画像美的評価の相対的順位付けを細分化して行う。
匿名化されたラッパー識別子を用いてラッパー内の一貫性を活用することで、個々の美的好みへのモデルのロバスト性を向上させる。
写真的属性と画像コンテンツを統合的にモデル化するための包括的なディープラーニングフレームワークを構築する。
1,000枚以上の画像、1〜5段階の美的スコア、属性アノテーション、190名以上の人間アノテーターのラッパー識別子を備えた新しいデータセットAADBを構築・公開する。
モデルが異なるデータセットに一般化できることを示し、AVAベンチマークで最先端の分類性能を達成することを実証する。

提案手法

画像ペア間の相対美的順位を予測するために、シアンプスネットワークアーキテクチャを用い、ペairwise美的好みをモデル化する順位損失関数を採用する。
共有およびブランチ固有の特徴を用いて、全体的な美的スコアと意味のある写真的属性（例：構図、色彩、被写体）を同時に予測する。
類似したコンテンツと一貫したラッパーの好みを持つ画像ペアを選択する、新しいサンプリング戦略を導入し、トレーニングの正則化と一般化の向上を図る。
匿名化されたラッパー識別子を活用してラッパー内一貫性を計算することで、モデルが個々の美的判断に整合するよう向上させる。
1,000枚以上の画像、1〜5段階の美的スコア、属性アノテーション、190名以上のラッパー識別子を備えた新しいデータセットAADBを構築する。
コンテンツクラスタリングを用いてペアサンプリングをガイドし、順位損失と属性予測損失の組み合わせにより、エンドツーエンドでモデルをトレーニングする。

実験結果

リサーチクエスチョン

RQ1ディープラーニングモデルは、写真的属性と画像コンテンツを同時に学習することで、細分化された画像美的評価順位付けを向上させることができるか？
RQ2匿名化されたラッパー識別子を用いてラッパー内一貫性を組み込むことで、モデルのパフォーマンスと主観的好みへのロバスト性はどのように向上するか？
RQ3多様なデータセットでトレーニングされた包括的なモデルは、AVAのような既存のベンチマークで最先端のパフォーマンスを達成できるか？
RQ4特に順位一貫性の観点から、モデルのパフォーマンスは個々の人間の評価者と比較してどの程度優れているか？
RQ5モデルは、美的分布やラッパーのデモグラフィーが異なるデータセット間でどの程度一般化できるか？

主な発見

提案されたモデルはAADBデータセットでスピアマンの順位相関係数ρ = 0.6782を達成し、平均的人間の評価者（ρ = 0.6738）を上回り、最も一貫性のある評価者と同等の性能を示した。
モデルは単純なしきい値処理を用いた場合、AVAベンチマークで最先端の分類性能を達成し、スピアマンのρ = 0.5154を記録した。
サンプリング戦略におけるコンテンツクラスタ数が増えるほどモデルの性能が向上し、K=10クラスタでピークに達した。これはコンテンツに配慮したペア選択の重要性を示している。
200枚以上の画像をアノテートしたラッパーは平均して高い一貫性（ρ = 0.7112）を示し、モデルは全ラッパーの平均を上回る順位合意を達成した。
データセット間の評価では、AADBとAVA間の転送性は限定的であり、性能が著しく低下した（例：AADBモデルをAVAテストに適用した場合、ρ = 0.1566）。これは、データセットの分布やラッパーの好みの違いを示している。
モデルはラッパー認識型サンプリングを活用することで、人間の判断における主観的変動にもかかわらず、順位一貫性が著しく向上し、個々の美的好みへのロバスト性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。