[论文解读] Detecting Interlocutor Confusion in Situated Human-Avatar Dialogue: A Pilot Study
本试点研究通过Wizard-of-Oz设置,利用多模态信号(面部情绪、头部姿态、眼动方向)在情境化人-虚拟角色对话中探究困惑检测。尽管自报困惑程度无显著差异,研究发现诱发的困惑状态与可观测的生理指标之间存在统计学上显著的关系,特别是眼动范围增加和面部情绪更负面。
In order to enhance levels of engagement with conversational systems, our long term research goal seeks to monitor the confusion state of a user and adapt dialogue policies in response to such user confusion states. To this end, in this paper, we present our initial research centred on a user-avatar dialogue scenario that we have developed to study the manifestation of confusion and in the long term its mitigation. We present a new definition of confusion that is particularly tailored to the requirements of intelligent conversational system development for task-oriented dialogue. We also present the details of our Wizard-of-Oz based data collection scenario wherein users interacted with a conversational avatar and were presented with stimuli that were in some cases designed to invoke a confused state in the user. Post study analysis of this data is also presented. Here, three pre-trained deep learning models were deployed to estimate base emotion, head pose and eye gaze. Despite a small pilot study group, our analysis demonstrates a significant relationship between these indicators and confusion states. We understand this as a useful step forward in the automated analysis of the pragmatics of dialogue.
研究动机与目标
- 探究是否可在面向任务的人-虚拟角色对话中诱发并检测困惑。
- 为情境化互动中智能对话系统开发适合的困惑定义。
- 探索与多模态对话中困惑状态相关的非语言及语言行为线索。
- 评估视觉模态(情绪、注视、姿态)在对话代理中实现自动困惑检测的可行性。
- 为未来实时响应用户困惑的自适应对话策略奠定基础。
提出的方法
- 通过基于网页的界面,对远程参与者开展基于Wizard-of-Oz的实验,使其与对话虚拟角色互动。
- 设计了三个基于任务的对话场景,以诱发困惑,其清晰度和复杂度各不相同。
- 部署三个预训练的深度学习模型,分别用于估计:(1) 从面部表情中提取基本情绪,(2) 从视频帧中估计头部姿态,(3) 估计眼动方向。
- 通过交互后调查问卷收集自报困惑评分,以与观测到的多模态信号进行比较。
- 使用独立样本t检验,评估困惑诱发条件与非困惑条件之间在困惑评分和生理指标上的统计差异。
- 分析诱发的困惑状态与可观测生理行为之间的关系,重点关注面部情绪、眼动范围和头部姿态变化。
实验结果
研究问题
- RQ1当参与者处于故意设计的困惑对话情境中时,他们是否意识到自己感到困惑?
- RQ2当参与者感到困惑时,是否会表现出明显不同的身体或非语言行为——如面部表情、眼动或头部姿态的变化?
- RQ3在情境化对话环境中,可观测的多模态信号(情绪、注视、姿态)能否可靠指示困惑状态?
- RQ4尽管自报数据存在不一致,诱发的困惑与可测量的生理指标之间是否存在统计学上显著的关系?
主要发现
- 两种实验条件下自报困惑评分无显著差异(p = 0.21),表明参与者并未持续意识到自身的困惑。
- 在诱发困惑的条件下,参与者表现出显著更负面的面部情绪,表明情绪表达可作为可检测的信号。
- 在困惑状态下,眼动角度的范围显著增大(p < 0.05),表明注视模式中存在更高的视觉扫描或不确定性。
- 在困惑状态下,头部姿态变化显著减少,表明用户困惑时头部动作减少或姿势更僵硬。
- 具体到任务3,条件A的困惑评分显著高于条件B(M = 4.38 vs. M = 3.00),p值 < 0.05,证实至少在一个任务中成功诱发了困惑。
- 尽管样本量和数据质量存在局限,本研究仍表明生理行为指标与困惑状态之间存在可检测的关联,支持在多模态对话系统中实现自动困惑检测的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。