Skip to main content
QUICK REVIEW

[論文レビュー] Learning Multi-level Deep Representations for Image Emotion Classification

Tianrong Rao, Min Xu|arXiv (Cornell University)|Nov 22, 2016
Image Retrieval and Classification Techniques参考文献 49被引用数 26
ひとこと要約

本稿では、MldrNetと呼ばれる深層畳み込みニューラルネットワークを提案する。このネットワークは、グローバルおよびローカルな視点から、画像の意味的特徴、美的特徴、低レベルの視覚的特徴を多段階で学習することで、画像感情分類の性能を向上させる。側枝と統合層を用いて複数の段階からの特徴を統合することで、最先端の手法よりも6%以上の精度向上を達成し、抽象画やノイズの多いインターネット由来のデータセットにおいて特に優れた性能を示す。

ABSTRACT

In this paper, we propose a new deep network that learns multi-level deep representations for image emotion classification (MldrNet). Image emotion can be recognized through image semantics, image aesthetics and low-level visual features from both global and local views. Existing image emotion classification works using hand-crafted features or deep features mainly focus on either low-level visual features or semantic-level image representations without taking all factors into consideration. The proposed MldrNet combines deep representations of different levels, i.e. image semantics, image aesthetics, and low-level visual features to effectively classify the emotion types of different kinds of images, such as abstract paintings and web images. Extensive experiments on both Internet images and abstract paintings demonstrate the proposed method outperforms the state-of-the-art methods using deep features or hand-crafted features. The proposed approach also outperforms the state-of-the-art methods with at least 6% performance improvement in terms of overall classification accuracy.

研究の動機と目的

  • 手作業で設計された特徴や単一段階の深層特徴に依存する既存の画像感情分類手法の限界を解決すること。
  • 意味的要因、美的要因、低レベル特徴といった多様な要因によって感情が伝えられる画像の感情分類の課題を克服すること。
  • 感情ラベルが信頼性の低い可能性がある、インターネットから収集されたノイズの多い現実世界のデータセットにおける性能を向上させること。
  • エンドツーエンド学習に適した高レベル、中レベル、低レベルの視覚的表現を効果的に統合する深層学習フレームワークの開発。
  • 従来のCNNが性能を発揮しない、抽象画やウェブ画像などの挑戦的なデータセットにおいて、頑健で優れた性能を示すこと。

提案手法

  • 高レベルの意味的特徴、中レベルの美的特徴、低レベルの視覚的特徴からなる複数段階の特徴を抽出可能な、側枝を備えた多段階の深層表現ネットワーク(MldrNet)を提案する。
  • 事前学習済みのCNNの複数の畳み込み層から深層表現を抽出し、グローバル(高レベル)およびローカル(低レベル)な視点からの特徴を捉える。
  • 統合層を用いて多段階の表現を統合し、意味的特徴、美的特徴、低レベル特徴の共同学習を可能にする。
  • 感情分類のための交差エントロピー損失関数を用い、最終全結合層の微調整を含むエンドツーエンド学習を実施する。
  • 不均衡なデータセットにおける信頼性の高い評価を確保するため、5分割および10分割交差検証戦略を採用する。
  • 特に怒りなどのレアな感情カテゴリに対しては、『1対すべて』戦略を用いて分類器を訓練する。

実験結果

リサーチクエスチョン

  • RQ1意味的特徴、美的特徴、低レベル特徴といった多段階の視覚的表現を統合する深層学習モデルは、単一段階の特徴に依存するモデルを上回る性能を発揮できるか?
  • RQ2テクスチャーや色によって感情が伝えられる抽象画を含む画像感情分類タスクにおいて、MldrNetはどのように性能を発揮するか?
  • RQ3手頃なラベルが付与されたインターネット由来のノイズの多いデータセットにおいて、MldrNetは標準的なCNNと比較してどの程度分類精度を向上させるか?
  • RQ4多段階の深層表現の統合は、ウェブ画像や芸術的表現を含む多様な画像タイプにおいて、より頑健な性能をもたらすか?
  • RQ5特に各感情カテゴリのトレーニングデータが限られたり不均衡になっている状況において、MldrNetは既存の最先端手法よりも一般化性能に優れているか?

主な発見

  • 抽象画のMARTデータセットにおいて、MldrNetは76.4%の精度を達成し、AlexNet(69.8%)や他のベースライン(NLMC:72.8%、LMC:71.8%)を顕著に上回った。
  • IAPS-SubsetおよびAbstractデータセットにおいて、MldrNetはほとんどの感情カテゴリで一貫した性能向上を示し、特に手作業特徴手法やAlexNetが性能を発揮しない分野で顕著だった。
  • 深層特徴または手作業特徴を用いた最先端手法と比較して、MldrNetは全体の分類精度を6%以上向上させた。
  • MldrNetは、高品質で手動でラベル付けされたデータに依存する必要を減らし、ノイズの多いインターネット収集データセットにおいても頑健であることを示した。
  • 特に中レベルの美的特徴と低レベルの視覚的特徴の統合が、抽象的・芸術的画像において顕著な性能向上をもたらした。
  • ArtPhotoおよびAbstractデータセットにおける5分割交差検証において、MldrNetは大多数の感情カテゴリで最高のクラスごとの真正陽性率を達成し、優れたクラスごとの一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。