QUICK REVIEW

[論文レビュー] Brain-Inspired Deep Networks for Image Aesthetics Assessment

Wang, Zhangyang, Shiyu Chang|arXiv (Cornell University)|Jan 16, 2016

Visual Attention and Saliency Detection参考文献 33被引用数 46

ひとこと要約

この論文では、人間の視覚的認知と神経美術学にインspiredされた、画像の美的評価のための新しい深層学習モデル、脳にインスパイアされたディープネットワーク（BDN）を提案する。BDNは、多様な画像特徴を学習する平行な教師ありパスウェイを用い、高レベルの統合ネットワークによりそれらを統合して総合的な美的評価とその分布を予測する。AVAデータセットにおいて最先端の性能を達成し、より高いロバストネスと一般化性能を実現した。

ABSTRACT

Image aesthetics assessment has been challenging due to its subjective nature. Inspired by the scientific advances in the human visual perception and neuroaesthetics, we design Brain-Inspired Deep Networks (BDN) for this task. BDN first learns attributes through the parallel supervised pathways, on a variety of selected feature dimensions. A high-level synthesis network is trained to associate and transform those attributes into the overall aesthetics rating. We then extend BDN to predicting the distribution of human ratings, since aesthetics ratings are often subjective. Another highlight is our first-of-its-kind study of label-preserving transformations in the context of aesthetics assessment, which leads to an effective data augmentation approach. Experimental results on the AVA dataset show that our biological inspired and task-specific BDN model gains significantly performance improvement, compared to other state-of-the-art models with the same or higher parameter capacity.

研究の動機と目的

神経美術学と深層学習の知見を統合することで、画像の美的評価の主観的で複雑な性質に取り組むこと。
人間の脳における階層的視覚処理を模倣する生物学的に妥当な深層学習アーキテクチャの開発。
手作業で設計された特徴量や標準的な深層モデルを上回る、美的評価予測の性能向上。
点推定にとどまらず、評価者間のばらつきを捉えることのできる人間の評価分布のモデリング。
一般化性能の向上に寄与する、ラベルを保持する変換に基づく新しいデータ拡張戦略の導入。

提案手法

BDNは、各々が異なる画像特徴次元（例：色、テクスチャ、構図）を対象として、畳み込みニューラルネットワークを用いて学習された特徴を抽出する平行な教師ありパスウェイを採用する。
各パスウェイは、人間の視覚系における並列処理を模倣するように、独自のラベル監視のもとで特定の美的特徴を独立して学習する。
高レベルの統合ネットワークが、すべてのパスウェイから得られた学習済み特徴を統合し、全体的な美的評価を予測する。
モデルは、Kullback-Leibler（KL）ダイバージェンスに基づく損失関数を用いて、人間の評価の分布全体を予測するように拡張された。
訓練中にラベルを保持する変換を適用することで、美的評価の整合性を保ちながらデータ拡張を行い、ロバストネスを向上させる。
モデルは二値評価予測で初期化され、KLダイバージェンスの最小化を用いて分布予測のためのファインチューニングが行われる。

実験結果

リサーチクエスチョン

RQ1人間の視覚神経科学にインスパイアされた深層学習モデルは、既存の最先端モデルを上回る性能を示せるか？
RQ2深層ニューラルネットワークを用いて、人間の美的評価の分布を効果的にモデリングし、予測できるか？
RQ3ラベルを保持するデータ拡張は、美的評価予測タスクにおける一般化性能の向上に寄与するか？
RQ4エンドツーエンド学習と比較して、並列で属性に特化したパスウェイは、性能向上にどの程度寄与するか？
RQ5美的判断の認知的および神経的メカニズムは、より生物学的に妥当な深層学習モデルの設計に、どのように寄与するか？

主な発見

再評価時の平均推定値を用いた二値評価予測の正解率は、δ = 0 の場合で 78.08%、δ = 1 の場合で 77.27% を達成し、より高いロバストネスを示した。
評価分布予測における平均KLダイバージェンスは 0.1743 にまで低下し、BDN-KL-D（0.2052）およびBDN-soft-D（0.2338）を上回った。
AVAテスト画像の96%以上において、BDNの推定平均評価と真値との差が1未満であることが確認された。
失敗事例から、抽象的または概念的に創造的であるとされる画像（例：抽象的または感情的・感情を喚起する構図）ではBDNが苦戦することが判明した。
モデルは、評価に大きなばらつきを示す画像（例：インパactsな、または不快に感じられる画像）を正しく特定できており、解釈の曖昧さに対する感受性が高かった。
AVA研究から得られたガウス事前分布の利用により、モデルの潜在的評価分布推定能力がより正確になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。