[论文解读] Detecting User Engagement in Everyday Conversations
本文提出了一种多层级机器学习框架,结合支持向量机(SVMs)进行情绪分类,并利用耦合隐马尔可夫模型(CHMMs)从连续语音中估计对话参与度。通过建模参与者之间的时序动态和相互影响,该方法在参与度检测中达到63%的准确率,显著优于仅对孤立话语进行分类的基线SVM方法,证明了整合语调、时序动态及交互线索在实时语音通信系统中用户参与度估计方面的价值。
This paper presents a novel application of speech emotion recognition: estimation of the level of conversational engagement between users of a voice communication system. We begin by using machine learning techniques, such as the support vector machine (SVM), to classify users' emotions as expressed in individual utterances. However, this alone fails to model the temporal and interactive aspects of conversational engagement. We therefore propose the use of a multilevel structure based on coupled hidden Markov models (HMM) to estimate engagement levels in continuous natural speech. The first level is comprised of SVM-based classifiers that recognize emotional states, which could be (e.g.) discrete emotion types or arousal/valence levels. A high-level HMM then uses these emotional states as input, estimating users' engagement in conversation by decoding the internal states of the HMM. We report experimental results obtained by applying our algorithms to the LDC Emotional Prosody and CallFriend speech corpora.
研究动机与目标
- 开发一种系统,实现实时语音通信中对话参与度的估计,尤其适用于移动设备和自发对话场景。
- 解决以往情绪识别方法仅分析孤立话语的局限性,通过将参与度建模为动态、连续的过程来改进。
- 将时序连续性、个体情绪状态以及跨参与者的相互影响整合到统一框架中,以提升参与度估计的准确性。
- 在真实电话对话中获取的自发性、说话人无关的语音数据上评估该方法,确保实际适用性。
提出的方法
- 系统在第一层使用SVM分类器,将声学特征(如语调)映射到情绪状态,例如离散情绪或唤醒度/效价水平。
- 高层隐马尔可夫模型(HMM)处理预测的情绪状态,将用户参与度水平的时序演化建模为连续的动态过程。
- 采用耦合HMM(CHMM)联合建模两位对话参与者的参与度状态,捕捉相互影响和交互动态。
- 该框架将低层级的语调特征、情绪状态的时序演变以及人际互动效应整合到单一的概率推理机制中。
- 系统在两个语料库上进行训练和评估:LDC情绪语调语料(表演语音)和CallFriend语料(自发的真实电话通话),涵盖说话人相关和说话人无关两种设置。
- 性能通过在1–5参与度量表上的分类准确率进行评估,随机基线为20%。
实验结果
研究问题
- RQ1仅依靠语调特征是否能可靠地估计连续自发语音中的对话参与度?
- RQ2与对孤立话语进行分类相比,建模参与度的时序动态如何提升检测准确率?
- RQ3在多大程度上,整合对话参与者之间的相互影响能够提升参与度估计效果?
- RQ4性能指标在表演语音与自发语音之间,以及在说话人相关与说话人无关设置之间有何差异?
- RQ5结合SVM与HMM的多层级架构能否有效整合声学特征、时序动态与交互线索,以实现参与度估计?
主要发现
- 仅使用语调特征的基线SVM分类器在参与度检测中达到47%的准确率,显著高于20%的随机基线。
- 通过建模参与度状态的连续时序动态,多层级HMM方法将准确率提升至61%。
- 通过引入耦合HMM以建模参与者之间的相互影响,准确率进一步提升至63%,证明了建模交互动态的价值。
- 在说话人无关模式下,自发语音(CallFriend语料)的准确率为51%(5种离散情绪类型)和58%(5种唤醒度水平),表明对说话人差异具有中等鲁棒性。
- 效价水平识别准确率较低(54%),而唤醒度识别准确率较高(3个水平时为67%),与心理学研究中关于唤醒度感知显著性的发现一致。
- 研究表明,基于表演性、说话人相关数据(如EP语料中75%的准确率)的结果无法推广到真实世界中的自发性、说话人无关场景,在此类场景中性能显著下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。