Skip to main content
QUICK REVIEW

[論文レビュー] A Deep Network for Arousal-Valence Emotion Prediction with Acoustic-Visual Cues

Songyou Peng, Le Zhang|arXiv (Cornell University)|May 2, 2018
Speech and Audio Processing参考文献 9被引用数 23
ひとこと要約

本論文は、OMG-Emotionデータセットからの音声および視覚的特徴を用いて、アーザル・バレンス感情予測のためのディープラーニングフレームワークを提案する。音声ネットワーク(ANet)はVGG-16に基づき、動画ネットワーク(VNet)はSphereFaceをバックボーンとし、スパースフレームサンプリングと双方向LSTMを採用。共同学習により、一致相関係数(CCC)スコアが0.3036(アーザル)および0.4796(バレンス)を達成し、最先端の性能を発揮した。

ABSTRACT

In this paper, we comprehensively describe the methodology of our submissions to the One-Minute Gradual-Emotion Behavior Challenge 2018.

研究の動機と目的

  • 音声・視覚入力から連続的なアーザルおよびバレンス感情次元を効果的に予測するディープラーニングモデルの開発。
  • 可変長の動画スニペットに対処するため、時間的ダイナミクスを保持するスパースフレームサンプリング戦略の設計。
  • マルチモーダル統合アプローチを用いて音声および動画ストリームを共同学習させることで、感情予測性能の向上。
  • 大規模な感情データセットでの外部事前学習を一切行わず、前処理済みスペクトログラムおよび深層顔特徴を用いる有効性の実証。

提案手法

  • 生の音声を16kHzモノのWAVファイルに変換し、25msのハミング窓と10msのステップ幅を用いて257×300×2のSTFTマップを計算。実部および虚部を保持。
  • MTCNNを用いて動画フレームから顔を抽出・アラインメントし、112×96×3にリサイズしてSphereFaceバックボーンへの入力とする。
  • 2チャネルのSTFT入力を想定した変更を加えたVGG-16をANetとして採用。最初の層を2チャネル入力に適合させ、ドロップアウトを施した2つの全結合層を追加。
  • 動画モデリングにおいて、スニペット全体にわたってセグメントベースのランダムサンプリングにより16フレームをスパースに抽出。SphereFaceを用いて512次元特徴を抽出し、その後双方向LSTMで処理。
  • ANetの直前層出力を4つのサンプリングSTFTマップに対して平均化した後、特徴を連結し、最終全結合層(Tanh活性化)を経て融合。
  • CCC損失を用いて共同学習を実施。初期学習率0.001を段階的に減衰させ、勾配ノルムが20を超えた場合に勾配クリッピングを適用。

実験結果

リサーチクエスチョン

  • RQ1外部事前学習を一切行わず、生の音声および動画入力から連続的なアーザルおよびバレンスを効果的に予測できるディープニューラルネットワークは存在するか?
  • RQ2音声および動画ストリームの共同学習は、単一ストリームモデルと比較して性能をどのように向上させるか?
  • RQ3スパースフレームサンプリングおよび双方向LSTMは、可変長の動画スニペットにおける時間的ダイナミクスのモデリングにどのような影響を及えるか?
  • RQ4STFTベースの音声表現は、OpenSmileなどのハンドクラフト特徴と比較して、アーザル・バレンス回帰においてどのように異なるか?
  • RQ5マルチモーダル統合は、単一モodalベースラインを上回って感情予測をどの程度向上させるか?

主な発見

  • 提案されたANetは、RAVDESSで事前学習されたベースライン(アーザル:0.18 vs. 0.08、バレンス:0.256 vs. 0.10)およびOpenSmileベースライン(合計CCC:0.36 vs. 0.18)を上回る性能を発揮。
  • VNet単体で合計CCCが0.7486を達成し、ベースラインの0.35を大きく上回り、動画のみの感情回帰において優れた性能を示した。
  • 音声および動画ストリームの共同学習により、合計CCCが0.7832に達し、動画のみモデル(0.7486)および音声のみモデル(0.4439)を大きく上回る顕著な改善を示した。
  • 共同モデルは、アーザルで0.3036、バレンスで0.4796のCCCを達成し、単一モーダルモデルおよび先行研究のベースラインを上回った。
  • 大規模な感情データセットでの事前学習を一切行わず、ImageNetからの転移学習および自己教師付き顔特徴に依存している。
  • 共同学習中にCCC損失を用いることで、単一モーダル学習で使用されたMSE損失と比較して、人間のアノテート感情スコアとの整合性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。