[論文レビュー] HiGRU: Hierarchical Gated Recurrent Units for Utterance-level Emotion Recognition
HiGRUは、対話における発話レベルの感情認識のために語内特徴と発話レベルの文脈を捉える二層階層GRUモデルを導入し、長距離文脈の処理のために特徴を融合し自己注意を用いる2つのバリアント HiGRU-f と HiGRU-sf を提供する。
In this paper, we address three challenges in utterance-level emotion recognition in dialogue systems: (1) the same word can deliver different emotions in different contexts; (2) some emotions are rarely seen in general dialogues; (3) long-range contextual information is hard to be effectively captured. We therefore propose a hierarchical Gated Recurrent Unit (HiGRU) framework with a lower-level GRU to model the word-level inputs and an upper-level GRU to capture the contexts of utterance-level embeddings. Moreover, we promote the framework to two variants, HiGRU with individual features fusion (HiGRU-f) and HiGRU with self-attention and features fusion (HiGRU-sf), so that the word/utterance-level individual inputs and the long-range contextual information can be sufficiently utilized. Experiments on three dialogue emotion datasets, IEMOCAP, Friends, and EmotionPush demonstrate that our proposed HiGRU models attain at least 8.7%, 7.5%, 6.0% improvement over the state-of-the-art methods on each dataset, respectively. Particularly, by utilizing only the textual feature in IEMOCAP, our HiGRU models gain at least 3.8% improvement over the state-of-the-art conversational memory network (CMN) with the trimodal features of text, video, and audio.
研究の動機と目的
- 文脈のばらつき、データ不均衡、長距離依存性にもかかわらず、対話における堅牢な発話レベルの感情認識を動機づける。
- 階層的GRU構造を用いて語レベル/発話レベル情報と発話間文脈の両方をモデル化する。
- 長距離文脈を効果的に捉え、特徴を融合する2つのバリアントHiGRU-fとHiGRU-sfを開発する。
- IEMOCAP, Friends, EmotionPush の3データセットで最先端を上回ることを示す。
提案手法
- 下位レベルの双方向GRUは発話内の語列をモデル化して発話埋め込みを生成し、上位レベルは発話の列をモデル化して文脈的な発話埋め込みを生成する。
- HiGRU-f は個々の語/発話埋め込みをGRU隠れ状態と融合させて文脈表現を補強する。
- HiGRU-sf はGRU隠れ状態上に自己注意層を追加して長距離のグローバル文脈を捉え、注意の出力を埋め込みと隠れ状態と融合する。
- 文脈的な発話埋め込みは全結合層と softmax に供され、発話ごとに感情を予測する。
- 学習にはデータ不均衡に対処する重み付きカテゴリクロスエントロピー損失を用い、クラス重みはクラス頻度の逆数に比例させ、αで調整する。
実験結果
リサーチクエスチョン
- RQ1階層的GRUは発話レベルの感情認識のために、細かな語レベルの手掛かりと長距離の発話レベル文脈の両方を効果的に学習できるか。
- RQ2特徴融合(HiGRU-f)と特徴融合を伴う自己注意(HiGRU-sf)は、素のHiGRUや他のベースラインよりテキスト対話データで測定可能な改善をもたらすか。
- RQ3データ不均衡がある感情やデータセット(IEMOCAP, Friends, EmotionPush)でHiGRUの各バリアントはどう性能を示すか。
主な発見
| モデル | Ang | Hap/Joy | Sad | Neu | WA | UWA |
|---|---|---|---|---|---|---|
| bcLSTM ∗ (T) | 75.29 | 79.40 | 78.07 | 76.53 | 77.7 | 77.3 |
| bcGRU (T) | 77.20 | 80.99 | 76.26 | 72.50 | 76.9 | 76.7 |
| HiGRU (T) | 75.41 | 91.64 | 79.79 | 70.74 | 80.6 | 79.4 |
| HiGRU-f (T) | 76.69 | 88.91 | 80.25 | 75.92 | 81.5 | 80.4 |
| HiGRU-sf (T) | 74.78 | 89.65 | 80.50 | 77.58 | 82.1 | 80.6 |
| HiGRU (F+E) | 55.41 | 81.20 | 51.40 | 64.40 | 65.8 | 63.1 |
| HiGRU-f (F+E) | 54.90 | 78.30 | 55.50 | 68.70 | 68.5 | 64.3 |
| HiGRU-sf (F+E) | 56.80 | 81.40 | 52.20 | 68.70 | 69.0 | 64.8 |
- HiGRUのバリアントは3データセット全てで最先端の方法を上回る。
- テキスト特徴のみの場合のIEMOCAPで、HiGRUのバリアントはtrimodal特徴を用いたCMNより少なくとも3.8%の改善を達成。
- HiGRU-fと HiGRU-sf は vanilla HiGRU に対して WA および UWA の両方で追加の利得を提供する。
- HiGRUモデルは感情間のバランスが良好で、怒りや悲しみなどの少数派感情で顕著な改善を示す。
- 訓練セットの混合は普遍的に性能を改善しない; データセットの特性が結果に影響を与える。
- 自己注意バリアントの HiGRU-sf は提案モデルの中でいくつかの設定で最良の総合結果を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。