Skip to main content
QUICK REVIEW

[論文レビュー] Building a Large Scale Dataset for Image Emotion Recognition: The Fine Print and The Benchmark

Quanzeng You, Jiebo Luo|arXiv (Cornell University)|May 9, 2016
Visual Attention and Saliency Detection参考文献 26被引用数 81
ひとこと要約

本論文は、視覚的感情認識のための大規模かつ人間がラベル付けをした300万枚以上の画像からなるデータセットを紹介しており、既存の最大データセットを30倍に拡大している。微調整された畳み込みニューラルネットワーク(CNN)からの深層特徴を用いて、深層学習が従来の手作業で設計された視覚的特徴を上回ることを実証し、感情認識分野における新たな最先端(SOTA)のベンチマークを確立した。

ABSTRACT

Psychological research results have confirmed that people can have different emotional reactions to different visual stimuli. Several papers have been published on the problem of visual emotion analysis. In particular, attempts have been made to analyze and predict people's emotional reaction towards images. To this end, different kinds of hand-tuned features are proposed. The results reported on several carefully selected and labeled small image data sets have confirmed the promise of such features. While the recent successes of many computer vision related tasks are due to the adoption of Convolutional Neural Networks (CNNs), visual emotion analysis has not achieved the same level of success. This may be primarily due to the unavailability of confidently labeled and relatively large image data sets for visual emotion analysis. In this work, we introduce a new data set, which started from 3+ million weakly labeled images of different emotions and ended up 30 times as large as the current largest publicly available visual emotion data set. We hope that this data set encourages further research on visual emotion analysis. We also perform extensive benchmarking analyses on this large data set using the state of the art methods including CNNs.

研究の動機と目的

  • 視覚的感情認識のための大規模かつ高品質なラベル付きデータセットの不足に対処すること。
  • 従来の手作業で調整された視覚的特徴と比較して、深層畳み込みニューラルネットワーク(CNN)が視覚的感情分析において果たす有効性を評価すること。
  • 最先端の深層学習手法を用いて、視覚的感情認識のための新たなベンチマークを確立すること。
  • 研究コミュニティにデータセットを公開し、感情計算およびマルチメディア解析分野における研究進展を加速すること。

提案手法

  • 感情関連のキーワードを用いて、オンラインソースから300万枚を超える弱ラベル付き画像を収集した。
  • アマゾン・メカニカル・トゥーカーを活用して、各画像に対して人間によるラベル付けを行い、8つの感情カテゴリ(喜び、畏敬、満足、興奮、怒り、嫌悪、恐怖、悲しみ)を含む強ラベル付きデータセットを構築した。
  • 最終全結合層を用いて、事前学習済みおよび微調整済みのCNN(例:ImageNet-CNN、ノイズあり微調整CNN、微調整済みCNN)から深層特徴を抽出した。
  • 主成分分析(PCA)を用いて、特徴次元を4096から20に削減し、分散の90%以上を保持した。
  • 5分割交差検証を用い、クラス固有のペナルティを導入した線形SVMを訓練し、各クラスの真正陽性率を最適化した。
  • 複数の最先端の手作業特徴セット(例:Machajdik、Yanulevskaya、Wang、Zhao)と比較して、深層特徴の性能を評価した。

実験結果

リサーチクエスチョン

  • RQ1深層畳み込みニューラルネットワークは、手作業で設計された視覚的特徴と比較して、視覚的感情認識において優れた性能を達成できるか?
  • RQ2事前学習済みCNNを感情固有のデータで微調整することで、異なる感情カテゴリにおける性能にどのような影響を与えるか?
  • RQ3データセットの規模とラベル品質が、視覚的感情認識における深層学習モデルの性能に与える影響は何か?
  • RQ4異なる感情カテゴリおよびデータ分布(例:実写写真 vs. 抽象画)において、深層特徴はどれほど一貫性を示すか?

主な発見

  • 微調整済みCNNから抽出した深層特徴は、特に「喜び」や「畏敬」などのポジティブな感情カテゴリにおいて、最先端の手作業特徴を顕著に上回った。
  • 深層特徴の性能は感情カテゴリによって顕著に異なることが判明し、特にArtPhotoデータセットでは「満足」や「恐怖」の認識精度が低く、微細な感情認識に依然として課題が残っていることを示した。
  • 微調整済みCNNは、ImageNet事前学習モデルやノイズあり微調整モデルと比較して、感情カテゴリ全体にわたってより一貫性のある性能を示しており、ドメイン適応がモデルの頑健性を向上させることを示唆している。
  • SVM学習におけるクラス固有のペナルティの導入により、特に「怒り」のような少数派の感情(2つのデータセットでそれぞれ8枚および3枚)の真正陽性率が向上した。
  • 一部のカテゴリでは優れた性能を示したが、依然として特定の感情では深層特徴の性能が劣っていることから、深層学習を用いても視覚的感情認識は依然として挑戦的な問題であることが示された。
  • 本研究で提示されたデータセットは、300万枚を超える人間によるラベル付け済み画像を含んでおり、前回の最大公的データセットの30倍にのぼり、より堅牢なベンチマークと今後の研究を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。