[论文解读] Confidence-Weighted Local Expression Predictions for Occlusion Handling in Expression Recognition and Action Unit detection
该论文提出了一种基于空间定义的人脸子区域的置信加权局部表情预测(LEPs)方法,结合随机森林与分层自编码器生成的置信度分数,后者用于建模无遮挡人脸流形。该方法在遮挡鲁棒性人脸表情识别与动作单元检测中表现稳健,具备实时推理能力,并在部分遮挡与姿态变化下提升了可靠性。
Fully-Automatic Facial Expression Recognition (FER) from still images is a challenging task as it involves handling large interpersonal morphological differences, and as partial occlusions can occasionally happen. Furthermore, labelling expressions is a time-consuming process that is prone to subjectivity, thus the variability may not be fully covered by the training data. In this work, we propose to train Random Forests upon spatially defined local subspaces of the face. The output local predictions form a categorical expression-driven high-level representation that we call Local Expression Predictions (LEPs). LEPs can be combined to describe categorical facial expressions as well as Action Units (AUs). Furthermore, LEPs can be weighted by confidence scores provided by an autoencoder network. Such network is trained to locally capture the manifold of the non-occluded training data in a hierarchical way. Extensive experiments show that the proposed LEP representation yields high descriptive power for categorical expressions and AU occurrence prediction, and leads to interesting perspectives towards the design of occlusion-robust and confidence-aware FER systems.
研究动机与目标
- 解决静态图像人脸表情识别(FER)与动作单元(AU)检测中部分面部遮挡的挑战。
- 克服现有FER系统在真实世界可变性(如遮挡、形态差异、训练数据覆盖有限)下表现不佳的局限性。
- 构建一种高层级、以表情驱动的表示方法(LEPs),通过置信度感知加权捕捉局部面部模式,提升鲁棒性。
- 通过融合流形学习与局部预测模型,实现实时、置信度感知的人脸表情识别与AU检测。
- 提供一种可扩展、高效的框架,泛化能力超越合成遮挡,适用于非受限环境下的应用。
提出的方法
- 在人脸的空间定义局部子区域(LEPs)上训练随机森林,以预测分类表情与AU存在性。
- 使用分层自编码器网络学习关键特征点周围无遮挡人脸数据的流形,通过重建误差生成置信度分数。
- 利用自编码器的重建误差对LEP预测进行加权,生成置信加权局部预测(WLS-RF框架)。
- 将置信度分数整合到最终决策过程中,对遮挡下不可靠的局部预测进行降权。
- 在多个数据集(CK+、BU4D、DISFA)上评估该框架在分类FER与AU检测中的性能。
- 通过多线程与高效对齐算法优化计算效率,在单个CPU上实现超过30 fps的推理速度。
实验结果
研究问题
- RQ1基于空间定义的局部人脸子区域(LEPs)是否能提升人脸表情识别对部分遮挡的鲁棒性?
- RQ2从分层自编码器中提取的置信度分数是否能有效量化遮挡下的预测可靠性?
- RQ3整合置信加权LEPs是否能提升分类表情识别与AU检测的性能?
- RQ4所提方法是否能泛化至训练阶段未见的真实世界遮挡,而无需依赖合成遮挡数据?
- RQ5该框架的计算负载如何随模型复杂度变化?是否支持实时视频处理?
主要发现
- 所提出的WLS-RF框架在多个基准测试中实现了遮挡鲁棒性分类人脸表情识别的最先进性能。
- 分层自编码器生成的置信度分数能有效识别不可靠预测,尤其在眼睛或嘴部等遮挡区域。
- 在遮挡区域(如眼遮挡场景下的AU6与AU9),低置信度表现一致,与视觉直觉和数据分布相符。
- 即使在高模型复杂度下,系统在单个CPU上仍可实现超过30 fps的推理速度,证明了其实时可行性。
- 训练过程可扩展:在8,000多张图像上训练LEP耗时约3小时,自编码器训练约12小时,50棵树的AU检测训练约1小时,均在标准CPU上完成。
- 置信加权LEP表示具有泛化能力,展现出应对光照变化与姿态变化的潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。