QUICK REVIEW

[論文レビュー] Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers

Syed Aun Muhammad Zaidi, Siddique Latif|arXiv (Cornell University)|Jun 23, 2023

Emotion and Mood Recognition被引用数 8

ひとこと要約

MDATは音声とテキストの両方を活用し、デュアルアテンション（グラフアテンションとコアテンション）とトランスフォーマーエンコーダを用いて、ターゲット言語データが限られている場合でもクロス言語SERを改善します。

ABSTRACT

Despite the recent progress in speech emotion recognition (SER), state-of-the-art systems are unable to achieve improved performance in cross-language settings. In this paper, we propose a Multimodal Dual Attention Transformer (MDAT) model to improve cross-language SER. Our model utilises pre-trained models for multimodal feature extraction and is equipped with a dual attention mechanism including graph attention and co-attention to capture complex dependencies across different modalities and achieve improved cross-language SER results using minimal target language data. In addition, our model also exploits a transformer encoder layer for high-level feature representation to improve emotion classification accuracy. In this way, MDAT performs refinement of feature representation at various stages and provides emotional salient features to the classification layer. This novel approach also ensures the preservation of modality-specific emotional information while enhancing cross-modality and cross-language interactions. We assess our model's performance on four publicly available SER datasets and establish its superior effectiveness compared to recent approaches and baseline models.

研究の動機と目的

ターゲット言語データが限られている状況でのクロス言語SERの解決。
音声・テキスト特徴のための多言語プリトレーニングモデルの活用。
モダリティ特有の感情情報を保持しつつ、クロ modality 相互作用を強化。
デュアルアテンションとトランスフォーマーエンコーダを用いて言語間の感情分類を改善。

提案手法

音声埋め込みにはXLS-R（multilingual wav2vec 2.0）を、テキスト埋め込みにはRoBERTaを使用。
テキスト特徴次元を音声特徴に合わせるために1x1 convを適用。
モダリティ内の依存関係をモデル化するグラフアテンション層を適用。
音声とテキスト間のクロスモダリティ相互作用を捉えるコアテンション層を適用。
.attendされた特徴を含む入力を結合し、トランスフォーマーエンコーダを通して高レベル表現へ。
結合したトランスフォーマー出力に対して密結合-ソフトマックス分類器を使用。

実験結果

リサーチクエスチョン

RQ1デュアルアテンションを備えたマルチモーダルトランスフォーマーは、ターゲット言語データが限られている場合でもクロス言語SERを改善できるか？
RQ2音声とテキストの多言語プリトレーニングモデルは言語間の一般化を高めるか？
RQ3グラフアテンションとコアテンションを組み合わせることでモダリティ特有の情報を保持しつつ、クロ modality 融合を改善できるか？
RQ4MDATはベースラインBiLSTMや他のマルチモーダルSER手法と比較して、言語を跨いでどの程度の性能を示すか？

主な発見

Dataset	Baseline UA	SAFRLM UA	HCAM UA	MDAT UA
IEMOCAP (4 Classes)	63.33	72.14	73.67	75.58
EMODB (7 Classes)	81.00	73.43	83.16	84.50
URDU (4 Classes)	91.13	84.73	91.56	94.33
EMOVO (6 Classes)	72.25	67.50	76.66	82.81

MDATは、同一コーパス内評価で4言語データセットにおいてベースラインおよび従来のマルチモーダル手法を上回る。
IEMOCAP、URDU、EMODB、EMOVOで、MDATはBaseline、SAFRLM、HCAMよりも高い無加重正解率を達成。
言語を跨ぐプリトレーニング表現を活用することで、モデルはクロス言語適応性を示す。
トランスフォーマーに基づく高レベル表現学習は、デュアルアテンションのみのアプローチより感情分類精度をさらに向上させる。
MDATは提供された同コーパス内比較で、報告された中で最高のUAを達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。