[论文解读] HiGRU: Hierarchical Gated Recurrent Units for Utterance-level Emotion Recognition
HiGRU 引入两级层次化 GRU 模型,以捕捉单词级别的发话内特征和话语级上下文,用于对话中的话语级情感识别,提供两个变体(HiGRU-f 和 HiGRU-sf),它们融合特征并利用自注意力处理长程上下文。
In this paper, we address three challenges in utterance-level emotion recognition in dialogue systems: (1) the same word can deliver different emotions in different contexts; (2) some emotions are rarely seen in general dialogues; (3) long-range contextual information is hard to be effectively captured. We therefore propose a hierarchical Gated Recurrent Unit (HiGRU) framework with a lower-level GRU to model the word-level inputs and an upper-level GRU to capture the contexts of utterance-level embeddings. Moreover, we promote the framework to two variants, HiGRU with individual features fusion (HiGRU-f) and HiGRU with self-attention and features fusion (HiGRU-sf), so that the word/utterance-level individual inputs and the long-range contextual information can be sufficiently utilized. Experiments on three dialogue emotion datasets, IEMOCAP, Friends, and EmotionPush demonstrate that our proposed HiGRU models attain at least 8.7%, 7.5%, 6.0% improvement over the state-of-the-art methods on each dataset, respectively. Particularly, by utilizing only the textual feature in IEMOCAP, our HiGRU models gain at least 3.8% improvement over the state-of-the-art conversational memory network (CMN) with the trimodal features of text, video, and audio.
研究动机与目标
- 在对话中实现鲁棒的話语级情感识别,尽管存在上下文变异、数据不平衡和长程依赖。
- 使用分层 GRU 结构同时建模单词/话语级信息与话语之间的上下文。
- 开发两个变体 HiGRU-f 和 HiGRU-sf,以有效融合特征并捕捉长程上下文。
- 在三个对话情感数据集(IEMOCAP、Friends、EmotionPush)上证明优于现有方法。
提出的方法
- 两级双向 GRU:下层对话内的单词序列建模以产生话语嵌入;上层对话序列建模以产生带有上下文的话语嵌入。
- HiGRU-f 将单个单词/话语嵌入与 GRU 隐状态融合以加强上下文表示。
- HiGRU-sf 在 GRU 隐状态上添加自注意力层,以捕捉长程全局上下文,并将注意力输出与嵌入和隐藏状态融合。
- 将上下文话语嵌入输入到带 softmax 的全连接层,以预测每个话语的情感。
- 训练使用加权分类交叉熵损失以应对数据不平衡,类别权重与类别频率的倒数相关(由 alpha 调整)。
实验结果
研究问题
- RQ1分层 GRU 能否有效同时学习细粒度的单词级线索和长程话语级上下文以进行话语级情感识别?
- RQ2特征融合(HiGRU-f)和带特征融合的自注意力(HiGRU-sf)是否相对于朴素的 HiGRU 和其他基线在文本对话数据上提供可衡量的提升?
- RQ3在情感不平衡和不同数据集(IEMOCAP、Friends、EmotionPush)下,HiGRU 变体的表现如何?
主要发现
| 模型 | Ang | Hap/Joy | Sad | Neu | 加权准确率 | 未加权准确率 |
|---|---|---|---|---|---|---|
| bcLSTM ∗ (T) | 75.29 | 79.40 | 78.07 | 76.53 | 77.7 | 77.3 |
| bcGRU (T) | 77.20 | 80.99 | 76.26 | 72.50 | 76.9 | 76.7 |
| HiGRU (T) | 75.41 | 91.64 | 79.79 | 70.74 | 80.6 | 79.4 |
| HiGRU-f (T) | 76.69 | 88.91 | 80.25 | 75.92 | 81.5 | 80.4 |
| HiGRU-sf (T) | 74.78 | 89.65 | 80.50 | 77.58 | 82.1 | 80.6 |
| HiGRU (F+E) | 55.41 | 81.20 | 51.40 | 64.40 | 65.8 | 63.1 |
| HiGRU-f (F+E) | 54.90 | 78.30 | 55.50 | 68.70 | 68.5 | 64.3 |
| HiGRU-sf (F+E) | 56.80 | 81.40 | 52.20 | 68.70 | 69.0 | 64.8 |
- HiGRU 变体在所有三个数据集上均超越了现有方法。
- 在 IEMOCAP 仅使用文本特征时,HiGRU 变体在使用 trimodal 特征的 CMN 上至少提升 3.8%。
- HiGRU-f 和 HiGRU-sf 相较于原生 HiGRU,在 WA(加权准确率)和 UWA(未加权准确率)上提供额外提升。
- HiGRU 模型在情感上表现出良好的平衡,尤其在如愤怒和悲伤等少数情感上有显著提升。
- 混用训练集并不普遍提升性能;数据集特征会影响结果。
- 自注意力变体 HiGRU-sf 在若干设置下达到提出模型中的最佳总体结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。