[论文解读] EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa
EmoBERTa 在 RoBERTa 上通过加入说话人标记来建模对话中的同-speaker 与 跨-speaker 的语境,用于情感识别,在 MELD 和 IEMOCAP 上达到新的 state-of-the-art,而不改变 RoBERTa 架构。
We present EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa, a simple yet expressive scheme of solving the ERC (emotion recognition in conversation) task. By simply prepending speaker names to utterances and inserting separation tokens between the utterances in a dialogue, EmoBERTa can learn intra- and inter- speaker states and context to predict the emotion of a current speaker, in an end-to-end manner. Our experiments show that we reach a new state of the art on the two popular ERC datasets using a basic and straight-forward approach. We've open sourced our code and models at https://github.com/tae898/erc.
研究动机与目标
- 以文本数据为唯一输入,推动并解决对话情感识别(ERC)。
- 利用说话人身份信息来建模对话动态,而不需要结构复杂的管线。
- 在标准 ERC 基准上评估一个简单的端到端 RoBERTa 基于方法。
- 提供开源代码和预训练模型以实现可重复性。
提出的方法
- 从预训练的 RoBERTa-large 开始,在 [CLS] 标记上添加一个线性分类器用于序列分类。
- 通过构造三个片段来编码对话:过去话语、当前话语和未来话语,每个话语前置相应的说话人姓名。
- 使用 RoBERTa 对组合序列进行注意力操作并预测当前话语的情感。
- 将输入限制在 RoBERTa 的 512-token 上限;迭代地在前/后添加过去/未来话语,直到达到令牌上限。
- 使用交叉熵损失加上 L2 正则化进行训练;使用 Optuna 微调学习率峰值,并采用混合精度训练。
实验结果
研究问题
- RQ1在 RoBERTa 框架内,面向说话人感知的输入构造是否能提升 ERC 的性能?
- RQ2包含过去和/或未来话语是否有利于 ERC 数据集中的情感预测?
- RQ3显式的说话人信息如何影响注意力动态和最终预测?
主要发现
| 模型 | MELD | IEMOCAP |
|---|---|---|
| EmoBERTa - 无过去和未来话语 | 63.46 | 56.09 |
| 仅过去话语 | 64.55 | 68.57 |
| 仅未来话语 | 64.23 | 66.56 |
| 同时具有过去和未来话语 | 65.61 | 67.42 |
| 无说话人姓名 | 65.07 | 64.02 |
| EmoBERTa (RoBERTa) - 不带说话人姓名的基线 | 65.07 | 64.02 |
- 与之前的方法相比,EmoBERTa 在 MELD 和 IEMOCAP 上实现了加权 F1 的最新 state-of-the-art。
- 消融实验表明,包含说话人姓名相对于没有说话人标识符的 RoBERTa 基线显著提升了性能。
- 仅使用过去话语在 IEMOCAP 上取得强结果;过去+未来通常在 MELD 上帮助更大。
- 将过去和未来话语与说话人感知输入结合,在同时使用过去和未来时,得到 MELD 最佳结果 65.61 和 IEMOCAP 最佳结果 67.42(在同一配置中使用过去和未来)。
- 定性分析表明,模型最后一层的 [CLS] 聚合倾向于聚焦于当前说话人,验证了设计思路。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。