QUICK REVIEW

[論文レビュー] Audio Visual Emotion Recognition with Temporal Alignment and Perception Attention

Linlin Chao, Jianhua Tao|arXiv (Cornell University)|Mar 28, 2016

Speech and Audio Processing参考文献 20被引用数 24

ひとこと要約

本稿では、音声と映像のストリーム間の時間的整合性を図るためのソフトアテンション機構と、認識に関連するセグメントを特定するためのものを利用した、音声・映像統合感情認識のためのディープラーニングフレームワークを提案する。LSTM-RNNと感情固有の埋め込みベクトルを統合することで、EmotiW2015データセットにおける認識精度が向上し、アテンションに基づく時間的整合性と認識に配慮した特徴再重み付けの有効性が示された。

ABSTRACT

This paper focuses on two key problems for audio-visual emotion recognition in the video. One is the audio and visual streams temporal alignment for feature level fusion. The other one is locating and re-weighting the perception attentions in the whole audio-visual stream for better recognition. The Long Short Term Memory Recurrent Neural Network (LSTM-RNN) is employed as the main classification architecture. Firstly, soft attention mechanism aligns the audio and visual streams. Secondly, seven emotion embedding vectors, which are corresponding to each classification emotion type, are added to locate the perception attentions. The locating and re-weighting process is also based on the soft attention mechanism. The experiment results on EmotiW2015 dataset and the qualitative analysis show the efficiency of the proposed two techniques.

研究の動機と目的

動画ベースの感情認識における音声と映像ストリームの間の不整合を解消すること。
マルチモodalなシーケンスにおける認識に関連するセグメントを特定・強調することで、認識性能を向上させること。
感情固有の埋め込みベクトルをアテンション機構に統合し、感情的コンテンツの局所化を改善すること。
アテンションに基づく統合と時間的整合性がマルチモーダルな感情認識において有効であることを検証すること。

提案手法

音声・映像特徴の順序処理のためのコア分類アーキテクチャとしてLSTM-RNNを採用する。
効果的な統合のため、時間的レベルで音声と映像特徴をアテンション機構を用いて時間的整合性を図る。
各感情クラスに対応する7つの感情埋め込みベクトルを導入し、認識アテンションの局所化を支援する。
学習された認識アテンションに基づいて、再度ソフトアテンションを用いて特徴を再重み付けし、関連するセグメントに焦点を当てる。
時間的整合性とアテンションコンポーネントの両方を同時に最適化するエンドツーエンドのモデルをEmotiW2015データセットで学習する。
時間的整合性をとった後、音声と映像特徴を統合し、感情分類のための判別性の高い表現を強化する。

実験結果

リサーチクエスチョン

RQ1マルチモーダルな感情認識において、音声と映像ストリームをどのように効果的に時間的に整合化できるか？
RQ2認識に配慮したアテンション機構により、関連する感情的セグメントに焦点を当てることができれば、認識性能が向上するか？
RQ3感情固有の埋め込みベクトルは、音声・映像シーケンスにおけるアテンションの局所化をどの程度向上させるか？
RQ4提案されたアテンションに基づく統合は、感情認識タスクにおいて標準的な特徴連結よりも優れているか？

主な発見

ソフトアテンションを用いた時間的整合性により、音声と映像モダリティの表現を同期させることで、特徴統合が顕著に向上した。
感情固有の埋め込みベクトルによって誘導された認識アテンションにより、モデルの関心が関連する感情的コンテンツに集中し、分類のロバスト性が向上した。
本モデルはEmotiW2015データセットで最先端の性能を達成し、アテンション機構の有効性が裏付けられた。
定性的な分析から、アテンション機構が音声および映像モダリティの両方において感情的に顕著なフレームを的確に強調していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。