QUICK REVIEW

[論文レビュー] DeepSentiBank: Visual Sentiment Concept Classification with Deep Convolutional Neural Networks

Tao Chen, Damian Borth|arXiv (Cornell University)|Oct 30, 2014

Image Retrieval and Classification Techniques参考文献 35被引用数 270

ひとこと要約

この論文では、ImageNetからの転移学習を用いて、視覚的センチメント概念（形容詞＋名詞のペア、ANP）を分類する深層畳み込みニューラルネットワーク（CNN）ベースのモデル、DeepSentiBankを提案する。100万枚のFlickr画像にANPラベルを付与したデータセットで微調整することで、従来のSVMベースのSentiBank手法と比較して顕著な向上が得られ、トップ1の正確度が最大370%向上し、トップ10の正確度が150%向上した。これは、センチメント概念のアノテーションおよび画像検索の両面で優れた性能を示している。

ABSTRACT

This paper introduces a visual sentiment concept classification method based on deep convolutional neural networks (CNNs). The visual sentiment concepts are adjective noun pairs (ANPs) automatically discovered from the tags of web photos, and can be utilized as effective statistical cues for detecting emotions depicted in the images. Nearly one million Flickr images tagged with these ANPs are downloaded to train the classifiers of the concepts. We adopt the popular model of deep convolutional neural networks which recently shows great performance improvement on classifying large-scale web-based image dataset such as ImageNet. Our deep CNNs model is trained based on Caffe, a newly developed deep learning framework. To deal with the biased training data which only contains images with strong sentiment and to prevent overfitting, we initialize the model with the model weights trained from ImageNet. Performance evaluation shows the newly trained deep CNNs model SentiBank 2.0 (or called DeepSentiBank) is significantly improved in both annotation accuracy and retrieval performance, compared to its predecessors which mainly use binary SVM classification models.

研究の動機と目的

ウェブ画像のタグから得られる中位のセンチメント概念を形容詞＋名詞のペア（ANP）としてモデル化することで、視覚的センチメント分析を向上させること。
従来の2値SVM分類器の限界を克服し、抽象的で主観的な視覚的センチメントを深層学習を用いて分類する課題に取り組むこと。
ImageNetでの事前学習を活用することで、限られたセンチメントバイアスが強い訓練データにおいて過学習を低減し、一般化性能を向上させること。
従来のSentiBankモデルと比較して、センチメント概念のアノテーション精度および画像検索性能を向上させること。
大規模なウェブデータを用いた感情的な画像理解のためのスケーラブルな、深層学習ベースのフレームワークを確立すること。

提案手法

Krizhevskyら（2012）のアーキテクチャを模倣した深層畳み込みニューラルネットワーク（CNN）を採用し、ImageNetデータセットで転移学習を実行する。
ImageNetの事前学習済み重みをCNNの初期化に用いることで、より小さなセンチメントバイアスが強いANPデータセットにおいて過学習を低減し、収束を改善する。
Caffeを用いた深層学習フレームワークで、約100万枚のFlickr画像（ANPラベル付き）のデータセット上でネットワークを微調整する。
画像レベルの特徴量をCNNの最終全結合層から抽出し、ANP分類および検索に用いる。
分類性能はトップ1、トップ5、トップ10の正確度で評価し、検索性能はトップ20での平均平均精度（mAP）で評価する。
物体検出や意味的類似度モデリングは含まず、ベースライン比較のための全体画像表現に焦点を当てる。

実験結果

リサーチクエスチョン

RQ1ImageNetでの事前学習を用いた深層CNNは、従来のSVMベースのモデルと比較して、視覚的センチメント概念分類の正確度を顕著に向上させることができるか？
RQ2一般画像データセット（ImageNet）からの転移学習は、特殊でセンチメントバイアスが強いANPデータセットでの性能をどのように向上させるか？
RQ3事前学習済みCNNをANPラベル付き画像で微調整することで、アノテーションおよび検索性能がどの程度向上するか？
RQ4トップ1、トップ5、トップ10、mAPといった異なる評価指標において、深層学習モデルの性能向上はどのように差がつくか？
RQ5局所化や類似度強化特徴を用いない全体画像表現に基づく深層学習モデルは、それらの特徴を用いた先行手法を上回ることができるか？

主な発見

DeepSentiBankは、2,089個の概念を含む全ANPセットにおいて、SentiBank 1.1と比較してトップ1の正確度が370%向上（8.16% 対 1.71%）した。
トップ10の正確度はSentiBank 1.1と比較して150%向上（26.10% 対 10.29%）し、多クラス分類性能の向上が顕著に示された。
事前学習モデルの微調整により、非微調整バージョンと比較して14–25%の性能向上が得られ、ドメイン特化の適応価値が明確になった。
検出性の高い1,200個のANPサブセットでは、DeepSentiBankはトップ1の正確度14.36%を達成し、SentiBank 1.1の3.04%を300%以上上回った。
画像検索においても、DeepSentiBankはSentiBank 1.1に比べて平均平均精度（mAP）が62.3%高く、SentiBank 1.5Rに対しても8.9%高い性能を示した。これは、局所化や類似度モデリングを用いていないにもかかわらず達成された。
ノイズが多いまたは不完全な擬似正例ラベルに対しても、関連するANPを効果的に検出でき、弱い教師信号に対するロバストネスを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。