[論文レビュー] EmoNets: Multimodal deep learning approaches for emotion recognition in video
本論文では、顔の特徴、音声、局所的視覚的キュー、空間時間的ダイナミクスの4つの専門モデル—顔の特徴にための畳み込みニューラルネットワーク、音声にためのディープベルiefネットワーク、局所的視覚的キューにためのバッグ・オブ・マウスモデル、空間時間的ダイナミクスにための関係的オートエンコーダー—を用いたマルチモーダル深層学習フレームワーク、EmoNetsを提示する。これらのモダリティ特化予測をランダムサーチを用いて重み付き平均化することで統合し、2014年 AFEW データセットで47.67%のテスト精度を達成した。これは個々のモデルを上回り、2013年 EmotiW チャレンジで優勝した。
The task of the emotion recognition in the wild (EmotiW) Challenge is to assign one of seven emotions to short video clips extracted from Hollywood style movies. The videos depict acted-out emotions under realistic conditions with a large degree of variation in attributes such as pose and illumination, making it worthwhile to explore approaches which consider combinations of features from multiple modalities for label assignment. In this paper we present our approach to learning several specialist models using deep learning techniques, each focusing on one modality. Among these are a convolutional neural network, focusing on capturing visual information in detected faces, a deep belief net focusing on the representation of the audio stream, a K-Means based "bag-of-mouths" model, which extracts visual features around the mouth region and a relational autoencoder, which addresses spatio-temporal aspects of videos. We explore multiple methods for the combination of cues from these modalities into one common classifier. This achieves a considerably greater accuracy than predictions from our strongest single-modality classifier. Our method was the winning submission in the 2013 EmotiW challenge and achieved a test set accuracy of 47.67% on the 2014 dataset.
研究の動機と目的
- ポーズ、照明、表現の変動が大きい実世界の状況下でも動画内の感情認識を向上させること。
- AFEWデータセットにおける各感情クラスのラベル付きデータが限られているという課題に対処するため、大規模外部データを用いた深層学習を活用すること。
- 視覚、音声、空間時間的、局所的顔面特徴といった複数のモダリティ特化型深層学習モデルからの予測を統合する強力な手法を開発すること。
- 個々のモデルの過学習を回避するため、複雑なアンサンブルハイパーパramータチューニングではなく、単純で制約のある統合手法を用いること。
- マルチモーダル表現の効果的な統合を通じて、2014年 EmotiW チャレンジで最先端のパフォーマンスを達成すること。
提案手法
- Google Image Searchから得た外部の顔画像データを用いて、顔検出された領域からの視覚的特徴を抽出するための深層畳み込みニューラルネットワーク(ConvNet)を訓練し、コンペティションデータへの過学習を回避する。
- 音声ストリームからプロソディックおよび言語的キューを捉えるために、階層的音声表現を学ぶためのディープベルiefネットワーク(DBN)を採用した。
- 口領域からの視覚的特徴を抽出・符号化するため、K-Meansに基づく「バッグ・オブ・マウス」モデルを実装し、動的顔面運動に焦点を当てた。
- 動画フレーム間の空間時間的依存関係をモデル化するため、関係的オートエンコーダーを用い、顔の表情の時間的ダイナミクスを学習した。
- 4つのモデルの予測を、バリデーションセット上でランダムサーチを用いて最適化した重み付き平均戦略で統合した。過学習を回避するための工夫である。
- 重み付き平均の出力に最終分類器(SVMまたはMLP)を適用したが、単純な重み付き平均が複雑な統合手法を上回ることを確認した。
実験結果
リサーチクエスチョン
- RQ1外部データで訓練されたマルチモーダル深層学習モデルは、リソースが限られた動画感情認識タスクのパフォーマンスを向上させることができるか?
- RQ2多様なモダリティ特化型深層モデルからの予測を単純な重み付き平均化することで、複雑なアンサンブル学習戦略に比べてどれほど効果的か?
- RQ3個々のモデルの過学習が従来のアンサンブル手法を妨げる程度はどのくらいで、より単純な統合手法がこれを緩和できるか?
- RQ4大規模でクリアな顔画像データで事前学習することで、照明やポーズのばらつきが大きい、ノイズの多い小規模な動画データセットへの微調整時の一般化性能が向上するか?
- RQ5制限付きで低複雑性の統合手法は、従来のハイパーパramータチューニングに比べ、感情認識のためのアンサンブルモデルで優れたパフォーマンスを発揮できるか?
主な発見
- 外部の顔画像データで事前学習したConvNetが、最も優れた単一モデルであり、2013年テストセットで35.58%の精度を達成した。これは、コンペティションデータのみで訓練したモデルを上回った。
- ランダムサーチによる重み付き平均化で複数のモダリティ特化型モデルを統合した結果、2013年データセットで41.03%のテスト精度を達成し、2番目に優れた競合モデル(35.89%)を上回った。
- 2014年 AFEW データセットでは、最終モデルが47.67%のテスト精度を達成し、上位1位の提出物となった。ただし、別の深層学習統合手法で50.37%の精度を達成した優勝者とは対照的であった。
- 350個の独立して探索された重み付き平均のバギングでは、精度が45.45%に低下した。これは、複雑なモデルのアンサンブル平均化が、適切に制約されない場合、性能を劣化させる可能性があることを示している。
- SVMやMLPのハイパーパramータチューニングは、特にバッグ・オブ・マウスやアクティビティ認識モデルにおいて、過学習のためバリデーション性能の向上に失敗した。
- 本研究は、個々のエキスパートモデルが過学習する状況では、複雑なアンサンブルモデルよりも単純で低複雑性の統合(例:重み付き平均)がより効果的であると結論づけた。これは、マルチモーダル感情認識の戦略にシフトを促すものである。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。