[论文解读] Emotion Detection on TV Show Transcripts with Sequence-based Convolutional Neural Networks
本文提出一个新的 Friends 转录情绪语料库,包含七个细粒度情绪,并提出基于序列的 CNN 模型并结合注意力以捕捉对话动态,在基线 CNN 上取得改进。
While there have been significant advances in detecting emotions from speech and image recognition, emotion detection on text is still under-explored and remained as an active research field. This paper introduces a corpus for text-based emotion detection on multiparty dialogue as well as deep neural models that outperform the existing approaches for document classification. We first present a new corpus that provides annotation of seven emotions on consecutive utterances in dialogues extracted from the show, Friends. We then suggest four types of sequence-based convolutional neural network models with attention that leverage the sequence information encapsulated in dialogue. Our best model shows the accuracies of 37.9% and 54% for fine- and coarse-grained emotions, respectively. Given the difficulty of this task, this is promising.
研究动机与目标
- 创建一个来自电视剧本的多方对话的高粒度文本情绪大规模语料库。
- 开发利用带注意力的序列化 utterance 序列的 CNN 模型用于情绪分类。
- 提供全面的语料库分析并将 SCNN 模型与基线进行比较。
- 证明带注意力的 SCNN 模型在该任务上优于标准 CNN。
提出的方法
- 对 Friends 转录文本进行七种情绪(sad, mad, scared, powerful, peaceful, joyful, neutral)在连续发话中标注。
- 提出序列化 CNN 模型(SCNN),通过拼接将当前发话特征与前面发话进行融合,并给出两个变体(SCNN c 和 SCNN v)。
- 在预测当前情绪时引入注意力机制(SCNN c^a 和 SCNN v^a),对过去发话赋权。
- 训练词向量(Word2Vec,200-d)并使用基于 CNN 的特征提取器,利用一维卷积进行序列融合。
- 在 episodes 的 train/dev/test 划分上,将 SCNN 变体与 CNN 和 RNN-CNN 基线进行对比。
实验结果
研究问题
- RQ1一个文本为主、具备序列感知的神经网络模型是否能够准确在多方对话的转录文本中检测情绪?
- RQ2带注意力的序列型 CNN 是否在此任务中优于标准 CNN 和基于 RNN 的模型?
- RQ3使用连续发话对对话数据中的情绪检测性能有何影响?
主要发现
| Model | Acc 7 | Acc 3 | F1 7 | F1 3 |
|---|---|---|---|---|
| CNN | 37.01 | 49.78 | 22.91 | 36.83 |
| RNN-CNN | 29.00 | 42.10 | 11.00 | 24.05 |
| SCNN c | 37.35 | 53.20 | 25.06 | 38.00 |
| SCNN v | 36.45 | 51.11 | 21.00 | 36.50 |
| SCNN c^a | 37.90 | 54.00 | 26.90 | 39.25 |
| SCNN v^a | 37.67 | 51.90 | 26.70 | 38.21 |
- 最佳模型(SCNN_c^a)在7类情绪分类上达到 37.90% 的准确率和 54.00% 的宏 F1,以及在3类(粗粒度)评估中的 39.25% 宏 F1。
- SCNN 变体在评估指标上优于基础 CNN 和 RNN-CNN 基线。
- 注意力机制较非注意力的 SCNN 模型带来提升,SCNN_c^a 取得最高的报告分数。
- 使用三到五个前置发话时可达到最佳性能,对于较长场景中的更长历史,收益递减。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。