QUICK REVIEW

[论文解读] EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa

Taewoon Kim, Piek Vossen|arXiv (Cornell University)|Aug 26, 2021

Topic Modeling参考文献 28被引用 48

一句话总结

EmoBERTa 在 RoBERTa 上通过加入说话人标记来建模对话中的同-speaker 与跨-speaker 的语境，用于情感识别，在 MELD 和 IEMOCAP 上达到新的 state-of-the-art，而不改变 RoBERTa 架构。

ABSTRACT

We present EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa, a simple yet expressive scheme of solving the ERC (emotion recognition in conversation) task. By simply prepending speaker names to utterances and inserting separation tokens between the utterances in a dialogue, EmoBERTa can learn intra- and inter- speaker states and context to predict the emotion of a current speaker, in an end-to-end manner. Our experiments show that we reach a new state of the art on the two popular ERC datasets using a basic and straight-forward approach. We've open sourced our code and models at https://github.com/tae898/erc.

研究动机与目标

以文本数据为唯一输入，推动并解决对话情感识别（ERC）。
利用说话人身份信息来建模对话动态，而不需要结构复杂的管线。
在标准 ERC 基准上评估一个简单的端到端 RoBERTa 基于方法。
提供开源代码和预训练模型以实现可重复性。

提出的方法

从预训练的 RoBERTa-large 开始，在 [CLS] 标记上添加一个线性分类器用于序列分类。
通过构造三个片段来编码对话：过去话语、当前话语和未来话语，每个话语前置相应的说话人姓名。
使用 RoBERTa 对组合序列进行注意力操作并预测当前话语的情感。
将输入限制在 RoBERTa 的 512-token 上限；迭代地在前/后添加过去/未来话语，直到达到令牌上限。
使用交叉熵损失加上 L2 正则化进行训练；使用 Optuna 微调学习率峰值，并采用混合精度训练。

实验结果

研究问题

RQ1在 RoBERTa 框架内，面向说话人感知的输入构造是否能提升 ERC 的性能？
RQ2包含过去和/或未来话语是否有利于 ERC 数据集中的情感预测？
RQ3显式的说话人信息如何影响注意力动态和最终预测？

主要发现

模型	MELD	IEMOCAP
EmoBERTa - 无过去和未来话语	63.46	56.09
仅过去话语	64.55	68.57
仅未来话语	64.23	66.56
同时具有过去和未来话语	65.61	67.42
无说话人姓名	65.07	64.02
EmoBERTa (RoBERTa) - 不带说话人姓名的基线	65.07	64.02

与之前的方法相比，EmoBERTa 在 MELD 和 IEMOCAP 上实现了加权 F1 的最新 state-of-the-art。
消融实验表明，包含说话人姓名相对于没有说话人标识符的 RoBERTa 基线显著提升了性能。
仅使用过去话语在 IEMOCAP 上取得强结果；过去+未来通常在 MELD 上帮助更大。
将过去和未来话语与说话人感知输入结合，在同时使用过去和未来时，得到 MELD 最佳结果 65.61 和 IEMOCAP 最佳结果 67.42（在同一配置中使用过去和未来）。
定性分析表明，模型最后一层的 [CLS] 聚合倾向于聚焦于当前说话人，验证了设计思路。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。