[论文解读] Affect-driven Engagement Measurement from Videos
本文提出了一种基于视频的参与度测量方法,结合连续的愉悦度与唤醒度情感状态、一种新颖的潜在情感特征向量以及行为特征,融合深度学习(时序)与传统机器学习(非时序)模型。在DAiSEE和EmotiW数据集上评估,参与度分类准确率达到63.3%的最先进水平,回归任务的均方误差(MSE)为0.0673,证明了情感特征在参与度预测中的有效性。
In education and intervention programs, person's engagement has been identified as a major factor in successful program completion. Automatic measurement of person's engagement provides useful information for instructors to meet program objectives and individualize program delivery. In this paper, we present a novel approach for video-based engagement measurement in virtual learning programs. We propose to use affect states, continuous values of valence and arousal extracted from consecutive video frames, along with a new latent affective feature vector and behavioral features for engagement measurement. Deep learning-based temporal, and traditional machine-learning-based non-temporal models are trained and validated on frame-level, and video-level features, respectively. In addition to the conventional centralized learning, we also implement the proposed method in a decentralized federated learning setting and study the effect of model personalization in engagement measurement. We evaluated the performance of the proposed method on the only two publicly available video engagement measurement datasets, DAiSEE and EmotiW, containing videos of students in online learning programs. Our experiments show a state-of-the-art engagement level classification accuracy of 63.3% and correctly classifying disengagement videos in the DAiSEE dataset and a regression mean squared error of 0.0673 on the EmotiW dataset. Our ablation study shows the effectiveness of incorporating affect states in engagement measurement. We interpret the findings from the experimental results based on psychology concepts in the field of engagement.
研究动机与目标
- 通过视频数据提升虚拟学习环境中自动参与度测量的性能。
- 探究连续情感状态(愉悦度与唤醒度)对参与度预测的贡献。
- 开发并评估用于参与度分类与回归的时序(深度学习)与非时序(传统机器学习)模型。
- 在去中心化的联邦学习设置中探索模型个性化,以提升泛化能力与隐私保护。
- 在公开可用的DAiSEE与EmotiW数据集上验证该方法,以确保可复现性与基准测试。
提出的方法
- 使用基于深度学习的面部分析方法,从连续视频帧中提取连续的愉悦度与唤醒度分数。
- 通过结合愉悦度与唤醒度的时间模式与行为线索,构建一种新颖的潜在情感特征向量。
- 在帧级特征上训练深度学习模型,以捕捉参与度的时间动态。
- 在视频级特征上训练传统机器学习模型,实现非时序的参与度预测。
- 在联邦学习框架中实现该方法,以支持去中心化训练并实现模型个性化。
- 采用标准评估指标:DAiSEE使用分类准确率,EmotiW使用均方误差(MSE)。
实验结果
研究问题
- RQ1连续情感状态(愉悦度与唤醒度)在基于视频的学习中对参与度测量的提升作用如何?
- RQ2与基线特征相比,使用新颖的潜在情感特征向量能带来多大的性能提升?
- RQ3在视频级参与度预测中,基于深度学习的时序模型与传统机器学习模型相比表现如何?
- RQ4在联邦学习设置中,模型个性化在多大程度上提升了参与度测量的准确性?
- RQ5所提出的方法能否在DAiSEE与EmotiW等基准数据集上实现最先进性能?
主要发现
- 所提方法在DAiSEE数据集上实现了63.3%的最先进参与度分类准确率,显著优于先前方法。
- 在EmotiW数据集的回归式参与度预测中,方法实现了0.0673的均方误差(MSE),表明预测精度较高。
- 消融实验表明,引入情感状态(愉悦度与唤醒度)显著提升了参与度测量性能。
- 联邦学习实现证明了去中心化训练与个性化可行,同时在保护数据隐私的前提下保持了高性能。
- 结果通过参与度的心理学理论进行了解释,验证了该方法与人类行为与情感动态的一致性。
- 情感特征与行为特征的结合,相比单独使用任一模态,能实现更鲁棒、更准确的参与度估计。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。