[论文解读] Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification
一个统一的双分支 Vision Transformer,用于同时的人脸表情识别(FER)和戴口罩分类,通过一个跨任务融合阶段通过跨注意力实现信息交换。
With wearing masks becoming a new cultural norm, facial expression recognition (FER) while taking masks into account has become a significant challenge. In this paper, we propose a unified multi-branch vision transformer for facial expression recognition and mask wearing classification tasks. Our approach extracts shared features for both tasks using a dual-branch architecture that obtains multi-scale feature representations. Furthermore, we propose a cross-task fusion phase that processes tokens for each task with separate branches, while exchanging information using a cross attention module. Our proposed framework reduces the overall complexity compared with using separate networks for both tasks by the simple yet effective cross-task fusion phase. Extensive experiments demonstrate that our proposed model performs better than or on par with different state-of-the-art methods on both facial expression recognition and facial mask wearing classification task.
研究动机与目标
- 将戴口罩条件下的 FER 作为一个统一问题来解决。
- 通过具备多尺度表示的双分支架构,利用共享特征和任务特定特征。
- 通过引入跨任务融合阶段,在保持性能的同时减少与独立网络相比的模型复杂度。
提出的方法
- 使用双分支 Vision Transformer 提取用于 FER 和戴口罩的共享多尺度特征。
- 在各自分支中处理每个任务的 token,同时实现信息交换。
- 引入带有跨注意力模块的跨任务融合阶段,用于跨任务信息共享。
- 旨在在保持性能的同时降低相对于独立网络的整体复杂度。
实验结果
研究问题
- RQ1在戴口罩时,统一的多分支架构是否相对于任务特定模型能提升 FER?
- RQ2通过跨注意力的跨任务融合是否能提升对 FER 与戴口罩分类的性能?
- RQ3所提出的跨任务架构是否比为两个任务使用两个独立网络更高效?
主要发现
- 所提出的模型在 FER 和戴口罩分类方面的性能与现有方法稳健相当。
- 带有跨注意力的跨任务融合促进信息交换,在遮挡条件下提高识别性能。
- 与为每个任务使用独立网络相比,该框架降低了整体复杂度。
- 实验表明该模型在两项任务上与若干基线方法相当甚至优于它们。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。